Schlagwort: Benchmarks

Wenn KI zu viel zustimmt: Warum Widerspruch wichtig ist

22. April 2026

—

Fokusthema

KI-Modelle neigen dazu, die Meinungen und Wahrnehmungen von Nutzenden zu bestätigen. Diese wiederkehrende Zustimmung kann jedoch problematisch sein: Sie birgt das Risiko, bspw. Denkmuster zu verstärken und Abwärtsspiralen zu begünstigen. Da dieses Verhalten eine subtile Form der Manipulation darstellt, wird das bedingungslose „Ja-Sagen“ von Chatbots als sogenanntes „Dark Pattern“ eingeordnet. Darunter versteht man Gestaltungsmuster im…
Weiterlesen…
Große KI-Modelle halluzinieren weiterhin in über 30 % der Fälle

19. Februar 2026

—

News

Der neue Benchmark HalluHard, entwickelt von Forschenden aus der Schweiz und Deutschland, zeigt, dass große Sprachmodelle nach wie vor unzuverlässig sind. Laut der Studie erzeugt selbst das leistungsstärkste getestete Modell, Claude Opus 4.5, bei aktivierter Websuche noch in rund einem Drittel der Fälle halluzinierte Inhalte. Ohne Websuche verdoppelt sich diese Quote sogar. Auch GPT-5.2 Thinking…
Weiterlesen…
Typische KI-Benchmarks haben große Schwächen

13. November 2025

—

Fokusthema

Von einem internationalen Forscherteam wurden 445 Publikationen zum Benchmarking für Large Language Models untersucht. Die Forscher kommen zum Ergebnis, dass die gängigen Benchmarking-Verfahren methodische Schwächen aufweisen. Beispielsweise verwenden nur ca. 10 % der KI-Benchmarks vollständig reale Aufgaben, die tatsächliche Anwendungsszenarien widerspiegeln. Zudem seien viele Benchmarks methodisch unsauber, da nicht präzise definiert sei, was eigentlich gemessen…
Weiterlesen…

Schlagwort: Benchmarks

Wenn KI zu viel zustimmt: Warum Widerspruch wichtig ist

Große KI-Modelle halluzinieren weiterhin in über 30 % der Fälle

Typische KI-Benchmarks haben große Schwächen