Können KI-Anwendungen nicht frei zugängliche Inhalte wiedergeben?

KI-Anbieter geben an, dass Large Language Models (LLMs) beim Training Inhalte nicht auswendig lernen, sondern lediglich abstrakte Repräsentationen bilden. Ob KI-Modelle dennoch geschützte Texte wortwörtlich wiedergeben können, untersuchten Forschende der Stanford University in einer im Januar 2026 veröffentlichten Studie.

Für ihre Studie haben die Forschenden die Modelle Claude 3.7 Sonnet, Gemini 2.5 Pro und Grok 3 nach wortwörtlichen Passagen befragt. Die so generierten Inhalte sollten die Modelle schließlich vervollständigen. Die Ergebnisse waren je Modell ganz unterschiedlich, teils wurde fast alles wiedergegeben und teils die Zusammenarbeit quasi verweigert. Die Ergebnisse werden durch andere Studien bestätigt und verdeutlichen die offenen urheberrechtlichen Probleme im Zusammenhang mit KI-Systemen.

Diese Studie lieferte uns die Idee, zu testen, ob KI-Modelle auch Inhalte liefern können, die im Internet hinter einer Paywall liegen (bspw. Studien oder Zeitungsartikel). Getestet haben wir mit:

GPT 5.2
Claude Sonnet 4.5
Perplexity Pro
Gemini 3 und
Mistral Le Chat

Im Ergebnis hat uns keines der Modelle auf konkrete Anfrage nach wortwörtlichen Textpassagen die entsprechenden Inhalte ausgegeben. Auch bei indirekten Anfragen blieben GPT, Claude und Perplexity größtenteils konsequent bei ihrer Verweigerung. Sie alle verwiesen auf urheberrechtliche Einschränkungen. Gemini und Mistral ließen sich noch überreden, die ersten Sätze eines Berichts als Zitat gekennzeichnet auszugeben.

Etwas anders verhielt es sich bei der Studie eines Beratungsunternehmens, die nur auszugsweise frei zugänglich ist und ansonsten nur bei Registrierung vollständig erhältlich. Hier gelang es uns, ChatGPT mehrere längere Zitate aus der Studie ausgeben zu lassen, die sich nicht in den frei zugänglichen Texten fanden. Bei einigen von ChatGPT als „Zitat“ bezeichneten Sätzen handelte es sich allerdings auch um eine Wiedergabe des Inhalts in eigenen Worten, und nicht um echte Zitate.
Auch mit SZ-Artikeln, die hinter einer Paywall liegen, ließ sich ein Teilerfolg erzielen. Hier hat uns Mistral einen größeren Absatz wortwörtlich ausgegeben; die Ausgabe des vollständigen Textes wurde verweigert.

Unser Fazit: Die Möglichkeit, Inhalte hinter einer Paywall zusammenfassen zu lassen, könnte im Alltag sehr hilfreich sein. Auch ist in einigen Fällen eine eingeschränkte Reproduzierung nicht frei zugänglicher Inhalte möglich. Da allerdings in diesen Fällen die Originalquelle nicht überprüft werden kann, ist der Nutzen nur sehr begrenzt.

Von Ida Kandler

Können KI-Anwendungen nicht frei zugängliche Inhalte wiedergeben?

Teilen mit:

Gefällt mir:

Entdecke mehr von Research-KI