In den vergangenen Wochen wurde vielfach darüber berichtet, wie KI dabei helfen kann, Schwachstellen in Softwareanwendungen und IT-Systemen aufzuspüren. Doch können KI-Anwendungen auch inhaltliche Fehler identifizieren? Gemeint sind nicht sprachliche Verbesserungen oder klassische Korrekturen, sondern sachlich falsche, veraltete oder widersprüchliche Angaben.
Der Hintergrund: Viele Unternehmen verfügen über umfangreiche, historisch gewachsene Webseiten, Online-Datenbanken und Content-Bereiche, ohne eine zentrale und verlässliche Übersicht über alle Inhalte zu haben. Soll geprüft werden, ob Angaben noch aktuell, korrekt und konsistent sind, wird das schnell aufwendig.
Für unseren Test haben wir vier Chatmodelle gefragt, ob sie Fehler in Online-Inhalten identifizieren können. Im Prompt erklärten wir, dass wir im Rahmen eines Forschungsprojekts nach Wegen suchen, automatisiert inhaltliche Verbesserungen für Webseiten zu finden. Wir baten die Modelle, konkrete Seiten mit inhaltlichen Fehlern als Beispiele zu nennen – sowohl in Wikipedia als auch auf verschiedenen Firmenwebsites.
- Der KI-Modus von Google lieferte zwar methodische Hinweise und Vorschläge, wie sich Fehler eigenständig recherchieren lassen, nannte jedoch keinen konkreten Fall. Stattdessen verwies das System darauf, dass Fehler in Wikipedia meist sehr schnell korrigiert würden und falsche Angaben auf Webseiten häufig durch Qualitätskontrollen oder Kundenfeedback zeitnah auffielen.
- Perplexity antwortete direkter: Das Modell könne die Frage nicht beantworten, da mutmaßlich fehlerhafte Stellen nicht zuverlässig verifiziert werden könnten und zudem keine Liste potenziell ungeprüfter Schwachstellen bereitgestellt werden solle. Auch hier wurden stattdessen Hinweise zur eigenen Prüfung angeboten.
- ChatGPT nannte ebenfalls keine konkreten falschen Wikipedia-Angaben, verwies aber auf bekannte Fälle, in denen Fehler längere Zeit bestehen blieben. Bei Nachfragen zu Firmenwebseiten wurde u.a. fälschlicherweise als möglicher Fehler genannt, dass eine Unternehmensseite bereits Copyright- oder Zeitstempel mit „2026“ ausweist. Außerdem erkannte ChatGPT einen Tippfehler in einem Datenbankeintrag korrekt als Fehler.
- Grok zeigte sich auskunftsfreudiger. Das Modell nannte vier Wikipedia-Fehler, auf die bereits in Presseartikeln oder auf anderen Webseiten hingewiesen worden war. Durch weitere Nachfragen ließ sich außerdem eine Unterseite eines deutschen Konzerns identifizieren, auf der noch veraltete Umsatzangaben für 2024 standen, während auf mehreren anderen Unterseiten bereits Zahlen für 2025 verfügbar waren.
Unser Fazit: Für Recherchen, bei denen gezielt nach inhaltlichen Fehlern gesucht wird, ist der Einsatz von allgemein zugänglichen KI-Modellen derzeit eher mühsam. Vor allem die Unterscheidung zwischen „richtigen“ und „falschen“ Inhalten führt – mit Ausnahme von Grok – häufig zu zurückhaltenden Antworten. Zielführender ist es, nach Inkonsistenzen oder möglichen Widersprüchen innerhalb von Webseiten oder Datenbanken zu fragen. Auf diese Weise ließen sich eine veraltete Angabe und ein Tippfehler identifizieren. Darüber hinaus lieferten die Modelle mehrere Hinweise, die als Ausgangspunkt für eine vertiefte eigene Prüfung dienen können, etwa wenn Inhalte uneinheitlich wirken oder für Leserinnen und Leser widersprüchlich erscheinen.
Von Markus Hoffmann
