Schlagwort: Benchmarks

  • Wenn KI zu viel zustimmt: Warum Widerspruch wichtig ist

    Wenn KI zu viel zustimmt: Warum Widerspruch wichtig ist

    KI-Modelle neigen dazu, die Meinungen und Wahrnehmungen von Nutzenden zu bestätigen. Diese wiederkehrende Zustimmung kann jedoch problematisch sein: Sie birgt das Risiko, bspw. Denkmuster zu verstärken und Abwärtsspiralen zu begünstigen. Da dieses Verhalten eine subtile Form der Manipulation darstellt, wird das bedingungslose „Ja-Sagen“ von Chatbots als sogenanntes „Dark Pattern“ eingeordnet. Darunter versteht man Gestaltungsmuster im…

    Weiterlesen…


  • Große KI-Modelle halluzinieren weiterhin in über 30 % der Fälle

    Große KI-Modelle halluzinieren weiterhin in über 30 % der Fälle

    Der neue Benchmark HalluHard, entwickelt von Forschenden aus der Schweiz und Deutschland, zeigt, dass große Sprachmodelle nach wie vor unzuverlässig sind. Laut der Studie erzeugt selbst das leistungsstärkste getestete Modell, Claude Opus 4.5, bei aktivierter Websuche noch in rund einem Drittel der Fälle halluzinierte Inhalte. Ohne Websuche verdoppelt sich diese Quote sogar. Auch GPT-5.2 Thinking…

    Weiterlesen…


  • Typische KI-Benchmarks haben große Schwächen

    Typische KI-Benchmarks haben große Schwächen

    Von einem internationalen Forscherteam wurden 445 Publikationen zum Benchmarking für Large Language Models untersucht. Die Forscher kommen zum Ergebnis, dass die gängigen Benchmarking-Verfahren methodische Schwächen aufweisen. Beispielsweise verwenden nur ca. 10 % der KI-Benchmarks vollständig reale Aufgaben, die tatsächliche Anwendungsszenarien widerspiegeln. Zudem seien viele Benchmarks methodisch unsauber, da nicht präzise definiert sei, was eigentlich gemessen…

    Weiterlesen…