Die Leistungsfähigkeit eines KI-Modells sinkt deutlich (bis zu 33 %), wenn die Informationen über mehrere Nachrichten hinweg bereitgestellt werden. Dieses Ergebnis zeigen verschiedene Studien. Die Analysen deuten darauf hin, dass die Genauigkeit auch bei neuen Modellen wie GPT-5 oder Claude 4.6 abnimmt, sobald Aufgaben nicht in einem einzigen Prompt, sondern in mehreren kleinen Prompts bearbeitet werden.
Der Leistungsverlust hängt dabei nicht mit Speicher- oder Tokenbeschränkungen zusammen. Vielmehr ist er auf eine Art Aufmerksamkeitsverlust zurückzuführen: In längeren Dialogen neigen Modelle dazu, zu früh Schlussfolgerungen zu ziehen, sich auf zuvor gegebene, möglicherweise bereits fehlerhafte, eigene Antworten zu stützen oder Informationen aus früheren Teilen des Gesprächs nicht mehr ausreichend zu berücksichtigen. Besonders häufig gehen dabei Details verloren, die im mittleren Abschnitt eines Dialogs genannt wurden. Hinzu kommt, dass die Modelle in langen Konversationen tendenziell immer ausführlichere Antworten erzeugen, was die Entstehung von Halluzinationen begünstigen kann. Dieser Leistungsverlust wird als Context Decay oder Long-Chat Degradation bezeichnet.
Um diesem Effekt entgegenzuwirken, empfehlen Forschende, bei komplexen Aufgaben regelmäßig neue Konversationen zu beginnen und zentrale Informationen kompakt zusammenzufassen. Ebenfalls hilfreich kann es sein, wichtige Anforderungen in einem einzigen, strukturierten und möglichst vollständigen Prompt zu bündeln, statt sie über mehrere kleinere Eingaben zu verteilen.
Von Ida Kandler
Quelle: The Decoder, 28.02.2026, von Matthias Bastian
