Ein Szenario, in dem der Einsatz von LLMs theoretisch sinnvoll sein kann, ist die Suche nach Produzenten von bestimmten Produkten. Im konkreten Fall haben wir aktuelle Hersteller bestimmter chemischer Stoffe gesucht. LeChat, Perplexity und ChatGPT nannten auf die Frage, wer in Deutschland einen bestimmten Stoff produziert, zwei (2x) bzw. vier (1x) Unternehmen. Als Quellen wurden ein Online-Lieferantenverzeichnis ausgegeben, in dem diese Unternehmen mit verschiedenen chemischen Stoffen gelistet waren, zudem Texte in Branchenverzeichnissen und die Webseiten der Unternehmen. Bei der Verifizierung der Ergebnisse zeigte sich, dass eine der genannten Firmen nicht mehr existiert (sie wurde schon vor mehreren Jahren mit einem anderen Unternehmen verschmolzen und trägt nun einen anderen Namen). Weitere angegebene Unternehmen waren Importeure/Händler, aber keine Hersteller. Tatsächlich gibt es für einen dieser Stoffe nur einen einzigen Hersteller in Deutschland. Dieser Hersteller wurde in allen drei Chats korrekt genannt, darüber hinaus jedoch ein (2x) und drei (1x) weitere Unternehmen, die nicht mehr existierten bzw. keine Hersteller sind. Bei einem zweiten Test (neuer Chat, einige Tage Zeitunterschied) nannte eines der Modelle drei Unternehmen, von denen jedoch kein einziges korrekt war.
Unser Fazit: Trotz präzisem Prompting (Hersteller, keine bloßen Händler, Importeure etc.) und dem Hinweis, dass nur aktuelle Hersteller berücksichtigt werden sollen, wurden in allen Fällen zu viele Ergebnisse geliefert. Das LLM kann nicht beurteilen, ob eine Quelle veraltet ist. Zudem zeigte sich, dass die Antworten unterschiedlich sein können, wenn erneut gefragt wird. Die Ergebnisse aus Chats mit LLMs sind somit nur als Hinweis oder Anregung gut, müssen jedoch in jedem Fall nochmals geprüft werden.
Unsere Empfehlung bei derartigen Fragestellungen: Wir recherchieren bei solchen Fragestellungen derzeit zunächst ohne KI-Chat und validieren die Ergebnisse. Der KI-Chat kommt im zweiten Schritt zum Einsatz, um ggf. zusätzliche Ergebnisse zu finden. Aus den Kenntnissen im ersten Rechercheschritt können die Ergebnisse aus dem KI-Chat eingeschätzt werden. Der Einsatz des KI-Chats im ersten Schritt brächte keinen Zeitvorteil, da die Ergebnisse validiert werden müssen. Jeder hofft, dass der KI-Einsatz Zeitersparnis oder mehr Komfort bringt. Für den Moment müssen wir allerdings klar feststellen, dass beides bei dieser Fragestellung nicht zutrifft, wenn die Priorität auf exakten, fehlerfreien Ergebnissen liegt.
Von Markus Hoffmann
