Weniger ist mehr: Anthropic-Studie zeigt Grenzen längerer Rechenzeiten

Lange galt in der KI-Entwicklung die Annahme: Je mehr Rechenzeit ein Modell bekommt, desto besser die Antwort – insbesondere bei komplexen Aufgaben. Eine neue Studie von Anthropic, veröffentlicht im Juli 2025, stellt dieses Grundverständnis nun infrage. Die Forschenden testeten u. a. die Sprachmodelle Claude Sonnet 4, o3-mini und DeepSeek R1 in verschiedenen Aufgabenbereichen und im Vergleich zu OpenAI-Modellen. Ihr Ergebnis: Mehr Rechenzeit führt nicht zwangsläufig zu besseren Antworten – im Gegenteil. Sprachmodelle wie Claude Sonnet 4 oder Deepseek R1 lieferten bei längerer Denkzeit sogar oft schlechtere Resultate. Diesen Effekt bezeichnen die Forschenden als „Inverse Scaling in Test-Time Compute“, bei dem sich Modelle mit zunehmender Rechenzeit in Nebenfragen verlieren, überoptimieren oder vermehrt fehlerhafte Schlüsse ziehen. Besonders bei deduktiven Aufgaben sank die Leistung spürbar.

Für den praktischen KI-Einsatz lohnt es sich daher, genau zu prüfen, wie viel Denkzeit ein Modell bei analytischen Aufgaben erhalten sollte – ein wichtiger Perspektivwechsel für Unternehmen.

Von Ida Kandler

Quelle: t3n digital pioneers, 23.07.2025, von Noëlle Bölling

Entdecke mehr von Research-KI

Jetzt abonnieren, um weiterzulesen und auf das gesamte Archiv zuzugreifen.

Weiterlesen