Typische KI-Benchmarks haben große Schwächen

Von einem internationalen Forscherteam wurden 445 Publikationen zum Benchmarking für Large Language Models untersucht. Die Forscher kommen zum Ergebnis, dass die gängigen Benchmarking-Verfahren methodische Schwächen aufweisen. Beispielsweise verwenden nur ca. 10 % der KI-Benchmarks vollständig reale Aufgaben, die tatsächliche Anwendungsszenarien widerspiegeln.

Zudem seien viele Benchmarks methodisch unsauber, da nicht präzise definiert sei, was eigentlich gemessen werde. Um wirklich Schlussfolgerungen über die Brauchbarkeit eines KI-Modells ziehen zu können, müssten verschiedene Fähigkeiten wie bspw. „Reasoning“ oder „agentische Fähigkeiten“ exakt definiert und separat bewertet werden. Dies geschehe jedoch häufig nicht. Konkret sei bei mehr als 60 % der Publikationen gar nicht definiert oder umstritten, was genau gemessen wird.

Das Forschungsteam entwickelte acht Kernempfehlungen zur Verbesserung der Benchmark-Validität: Unter anderem soll die Validität eines Benchmarks begründet werden, indem seine Relevanz für echte Anwendungsfälle belegt wird.

Was heißt das konkret für den KI-Einsatz in der professionellen Recherche?

Ganz generell gilt: Typische KI-Benchmarks messen, wie gut ein Modell Wissensfragen beantwortet oder standardisierte Testaufgaben löst. Dies hat keine Aussagekraft darüber, wie gut die KI-Modelle bei bestimmten Arten von Recherchefragen funktionieren. Insofern ist eine Orientierung an Benchmarks bei der Entscheidung, welches KI-Modell verwendet wird, nur dann sinnvoll, wenn das Benchmark genau den Einsatzzweck evaluiert, der beabsichtigt ist. Beispielsweise hat OpenAI mit BrowseComp ein Benchmark vorgestellt, das die Fähigkeit von KI-Agenten mißt, schwer zu findende Informationen aufzuspüren.
Beim Benchmarking gibt es viel Raum für Weiterentwicklung. Eine Ausdifferenzierung der Fähigkeiten von Sprachmodellen für verschiedene Einsatzzwecke geht Hand in Hand mit einem spezifischeren Benchmarking. Eine ausdifferenzierte und besser strukturierte Angebotslandschaft erleichtert es, für den eigenen Nutzungszweck die passenden Modelle zu finden.
Vergleichbar wie in den Anfangsjahren von Google, als Updates im Algorithmus für die Suchenden deutlich sichtbare Auswirkungen auf die Trefferliste hatten, entwickeln sich die KI-Modelle sehr dynamisch. Es bleibt also kein anderer Weg als immer wieder zu prüfen, ob neue Modelle die eigenen Anforderungen besser erfüllen.

Von Markus Hoffmann

Typische KI-Benchmarks haben große Schwächen

Teilen mit:

Gefällt mir:

Entdecke mehr von Research-KI