Halluzinationen: Wie hoch ist das Risiko?

Künstliche Intelligenz Inhaltserkennung

Mit der zunehmenden Verbreitung und Nutzung künstlicher Intelligenz (KI) wächst auch das Bewusstsein dafür, dass sie möglicherweise falsche Aussagen als Tatsachen präsentiert. Diese „Halluzinationen“ – plausibel klingende, aber falsche Informationen – sind ein bekanntes Risiko im Zusammenhang mit dem Einsatz von KI, doch vielen ist nicht bewusst, wie gravierend sie sein können. Wenn Menschen die mit Halluzinationen verbundenen Risiken nicht verstehen, sind sie nicht in der Lage, deren Auswirkungen einzuschätzen.

In der Medienbranche werden große Sprachmodelle (LLMs) – eine Art generativer KI, die darauf trainiert ist, menschliche Sprache zu verstehen und zu generieren – zur Standardtechnologie für Unterhaltungserlebnisse der nächsten Generation. Der Erfolg in diesem Bereich hängt jedoch davon ab, dass LLMs durch zuverlässige externe Datenquellen untermauert werden, um die Bereitstellung präziser, aktueller und relevanter Ergebnisse zu gewährleisten. Dieser Prozess wird als „Grounding“ bezeichnet.

Warum LLMs Halluzinationen haben

Wichtig ist, dass LLMs keine Datenbanken sind und keine Daten im herkömmlichen Sinne speichern. Es handelt sich um Wahrscheinlichkeitsmatrizen, die auf der Grundlage umfassender, aber endlicher Datenmengen trainiert wurden. Folglich generieren sie Antworten, anstatt Fakten abzurufen und wiederzugeben. In der Praxis besteht die Hauptaufgabe von LLMs darin, den wahrscheinlichsten Textabschnitt (z. B. ein Token) in einem statistisch vorgegebenen Muster vorherzusagen. Wenn das sprachlich plausibelste nächste Wort in einer Sequenz zufällig falsch ist, liefert das LLM es trotzdem aus, da es zum Muster passt.

Der wesentliche, probabilistische Charakter der Technologie selbst ist also die Hauptursache für Halluzinationen, doch diese technologische Schwachstelle wird durch die Daten, mit denen die Modelle trainiert werden, noch verstärkt. Modelle neigen besonders zu Halluzinationen, wenn sie aufgefordert werden, Fragen zu beantworten, zu denen in ihrem Trainingsdatensatz nur wenige oder gar keine themenbezogenen Daten vorhanden sind oder wenn die relevanten Trainingsdaten widersprüchlich sind. Dies zeigt sich besonders deutlich in Anwendungsfällen in den Medien, in denen Fragen zu aktuellen Veröffentlichungen, aktuellen Ereignissen (wie den jüngsten Oscar-Verleihungen) und weniger bekannten oder Nischentiteln gestellt werden.

Das Internet trägt hier einen Großteil der Schuld, da es als primäre Datenquelle für das Training von LLMs dient. Die Verankerung eines LLM in realen, verifizierten Daten ist der wichtigste Schutz gegen Halluzinationen. Die Verankerungsmethoden variieren ebenso wie die Datenquellen, auf die sie zurückgreifen. Folglich ist jedes einzelne LLM nur so zuverlässig wie die Daten, auf die es zugreifen kann. Bis zum Jahr 2026 sind keine LLMs frei von Halluzinationen, und angesichts der Natur dieser Technologie wird sich daran in naher Zukunft wohl auch nichts ändern. Grounding ist tatsächlich der einzige gangbare Ansatz, um Halluzinationen einzudämmen.

Großes Sprachmodelle in der Unterhaltungsbranche

Im Zuge der zunehmenden Verbreitung und Nutzung von KI sind Unterhaltungsanbieter bestrebt, das Erlebnis ihrer Inhalte für ihre Kunden weiter zu verbessern. In diesem Bereich bietet KI erhebliche Vorteile gegenüber herkömmlichen Datenbank- und Suchtechnologien. Leistungsstarke Ranking- und Sortierfunktionen, hochgradig personalisierte Empfehlungen, die Harmonisierung von Inhaltskatalogen und die dialogorientierte Suche zählen zu den wichtigsten Vorteilen, die große Sprachmodelle (LLMs) bieten können.

Metadaten sind die Grundlage für den Erfolg jedes großen Sprachmodells (LLM), dessen Aufgabe es ist, die Art und Weise zu revolutionieren, wie Menschen Inhalte erleben. Während dem Nutzer vielleicht nur 10 oder 20 Metadatenattribute zu einem bestimmten Film oder einer bestimmten Fernsehsendung angezeigt werden, erfassen Streamingdienste und Studios oft Hunderte – ja sogar Tausende – von Datenpunkten für einzelne Titel.

Wichtig ist, dass das Halluzinationsrisiko nicht bei allen Metadatenattributen gleich hoch ist. Bestimmte Attribute, wie beispielsweise Inhaltstyp und Genre, bergen ein sehr geringes Halluzinationsrisiko, da LLMs besonders dann ihre Stärken ausspielen, wenn sich die Wahrscheinlichkeitsantworten auf strukturierte Logik und kategoriale Zuordnungen konzentrieren.

Wenn Metadatenattribute jedoch sehr spezifisch sind, steigt das Risiko von Halluzinationen erheblich. Beispielsweise bergen Inhalts-IDs und mathematische Attribute ein sehr hohes Halluzinationsrisiko. In diesen Fällen „raten“ LLMs selbstbewusst eine Zahl, die sie für plausibel halten, die aber faktisch falsch ist. Beispielsweise werden Zahlen oft in Untertokens zerlegt. So könnte ein LLM die Zahl 154 als 15 und 4 erkennen. Bei der Konstruktion dieser Werte versagt die „Mathematik“ oft, was zu „Off-by-One“-Fehlern führt.

Staffel- und Episodennummern stellen aufgrund der Funktionsweise von LLMs eine besondere Herausforderung dar. Hat ein LLM beispielsweise 1.000 Episoden der Simpsons gesehen, weiß es, dass es eine 10. Staffel und eine 5. Episode gibt. Fragt ein Zuschauer nach einer Nischenserie mit nur sechs Episoden, könnte das Modell dennoch zu einer höheren Zahl tendieren, da die meisten Serien, mit denen es trainiert wurde, längere Staffeln haben.

Bewertung des Risikos von Halluzinationen anhand von Metadatenattributen

Angesichts der Vielzahl der vorhandenen Metadatenattribute sind nicht alle grundsätzlich anfällig für Halluzinationen.

Das Risiko von Fehlinterpretationen hinsichtlich eines Regisseurs ist beispielsweise bei großen Studio-Produktionen anders als bei kleinen, unabhängigen Filmen. Hier könnte eine Verwechslung der Mitwirkenden dazu führen, dass ein LLM einen Produzenten oder einen bekannten zeitgenössischen Filmemacher fälschlicherweise als Regisseur identifiziert.

Schauen wir uns das Risiko von Halluzinationen bei bestimmten Inhaltstypen und Metadatenattributen genauer an.

Allgemeine Eigenschaften

Attribut	Risiko von Halluzinationen	Begründung
Gracenote (oder eine beliebige Kennung)	Kritisch	Nicht-semantische Zeichenfolgen: IDs sind für ein Sprachmodell semantischer Unsinn, daher erfinden LLMs einfach eine Zeichenfolge, die wie zuvor gesehene Bezeichner aussieht. LLMs melden keine korrekten TMSIDs für Titel, die nicht zu den vereinzelten Bezeichnern gehören, die in der öffentlichen Dokumentation Gracenoteaufgeführt sind.
Typ	Sehr niedrig	Strukturelle Logik: Modelle erkennen in der Regel anhand des Kontexts, ob es sich um einen Film oder eine Serie handelt. Es kommt selten vor, dass sie einen „Film“ fälschlicherweise als „Folge“ interpretieren, wenn der Titel angegeben ist. Allerdings neigen Modelle dazu, Serien und Filme mit demselben Titel zu verwechseln, insbesondere wenn sie denselben Darsteller haben.
Schauspieler	Niedrig	Assoziationsverzerrung: Große Sprachmodelle (LLMs) erzielen bei bekannten Namen eine hohe Genauigkeit, können jedoch einen Schauspieler fälschlicherweise einem Projekt zuordnen, in dem er nie mitgewirkt hat – einfach nur, weil er häufig mit diesem Regisseur oder in einem verwandten Genre arbeitet.
Genre	Niedrig	Kategorische Zuordnung: Grundsätzlich gibt es eine endliche Liste von Genres. Große Sprachmodelle (LLMs) sind im Allgemeinen gut darin, „The Batman“ als „Action/Krimi“ einzustufen, auch wenn ihnen Untergenres möglicherweise entgehen und ihre Antworten nicht mit einer Standard-Taxonomie übereinstimmen.
Beschreibung	Niedrig	Generative Stärke: LLMs sind in der Regel in der Lage, eine plausible Zusammenfassung zu erstellen. Hierbei handelt es sich um „weiche“ Daten, bei denen der Begriff „Genauigkeit“ subjektiv ist. Dies setzt jedoch voraus, dass LLMs Titel mit demselben Namen nicht verwechseln oder vermischen. Die Beschreibung entspricht nicht den redaktionellen Standards (z. B. keine Spoiler), sofern keine spezifischen Vorgaben gemacht werden.
Bilder	Kritisch	Keine Klärung der Nutzungsrechte: LLMs können nicht überprüfen, ob eine Bild-URL aktiv oder relevant ist. Oftmals generieren sie einen wahrscheinlichen Pfad, und alle Bilder, die korrekt geladen werden, sind nicht typisiert und ihre Nutzungsrechte sind unbekannt.
Dauer	Mittel	Rückkehr zum Mittelwert: LLMs neigen dazu, Standardlängen (22 m, 44 m, 90 m, 120 m) zu schätzen, anstatt die genaue Laufzeit auf Frame-Ebene anzugeben.

Filmeigenschaften

Attribut	Risiko von Halluzinationen	Begründung
Jahr	Mittel	Historischer Hinweis: Die Erscheinungsjahre von Filmen gelten als „Ankerfakten“ in den Trainingsdaten von LLM-Modellen. Bei wenig bekannten Indie-Filmen und unveröffentlichten Projekten steigt das Risiko. Gracenote haben jedoch gezeigt, dass Erscheinungsjahre nicht selten um ein Jahr verfehlt werden.
Direktor	Mittel	Verwirrung bei den Credits: LLMs neigen weniger dazu, bei bekannten Filmen falsche Angaben zum Regisseur zu machen. Bei weniger bekannten Filmen kann es vorkommen, dass LLMs den Produzenten oder eine bekanntere zeitgenössische Persönlichkeit fälschlicherweise als Regisseur angeben.

Merkmale der Fernsehsendung

Attribut	Risiko von Halluzinationen	Begründung
Zeitraum	Mittel	Drift: LLMs geben das Startjahr in der Regel korrekt an, erfinden jedoch ein Endjahr, wenn die Serie nach dem Stichtag des Modelltrainings abgesetzt oder verlängert wurde, sofern die Serie fortgesetzt wird.
Urheber	Mittel	Rollenverwirrung: Große Sprachmodelle haben oft Schwierigkeiten mit bestimmten Rollen in einer Produktion. Sie wissen zwar vielleicht, dass „Vince Gilligan ‚Breaking Bad‘ geschaffen hat“, aber häufig bilden sie sich falsche Vorstellungen über die Beziehungen zwischen Personen und deren Beteiligung an einem bestimmten Titel ein.
Anzahl der Spielzeiten	Hoch	Wissensstand: Eine Serie, die heute fünf Staffeln umfasst, hatte zum Zeitpunkt des Modelltrainings möglicherweise erst drei. Daher gibt das LLM die alte Zahl als „Fakt“ an. Generell sind LLMs bei ganzen Zahlen nicht zuverlässig, da Zahlen nicht als Fakten „gespeichert“ werden. Vielmehr werden sie auf der Grundlage ähnlicher Daten vorhergesagt.

Attribute von TV-Folgen und -Staffeln

Attribut	Risiko von Halluzinationen	Begründung
Titel der Folge	Hoch	Semantisches Erraten: Bei bekannten Episoden (z. B. „The Rains of Castamere“) ist die Genauigkeit hoch. Bei weniger bekannten Episoden erfinden LLMs einen Titel, der so „klingt“, als gehöre er zu dieser Serie (z. B. eine „Friends“-Episode mit dem Titel „The One with the Coffee“).
Staffelnummer	Hoch	Vorhersagewahrscheinlichkeit: LLMs behandeln Staffelnummern als „wahrscheinliche Abfolgen“. Wenn eine Serie schon lange läuft, könnte das Modell statt Staffel 5 Staffel 4 vorhersagen, da beide in seinen Gewichtungen gleich „wahrscheinlich“ sind.
Folgennummer	Hoch	Fehlende Indexierung: Ohne Ankerpunkte kann das LLM die Position einer Episode nur erraten. Dabei kommt es häufig zu „Off-by-One“-Fehlern.
Erstausstrahlung	Hoch	Mustererkennung: LLMs wissen vielleicht, dass eine Sendung „2014 donnerstags“ ausgestrahlt wurde, und generieren dann ein plausibel klingendes Datum an einem Donnerstag, das sachlich falsch ist.
Direktor	Hoch	Verwässerung der Urheberschaft: Die Regisseure der einzelnen Episoden wechseln ständig. Sofern eine Episode keinen berühmten „Gastregisseur“ hat (z. B. Tarantino bei „CSI“), vermuten LLMs in der Regel den Showrunner oder einen Regisseur, der häufig bei der Serie mitwirkt.

Der mathematische Weg des geringsten Widerstands

Große Sprachmodelle (LLMs) werden darauf trainiert, den „Verlust“ zu minimieren, was bedeutet, dass sie gemäß ihren Trainingsdaten so „korrekt“ wie möglich sein wollen. In einem riesigen Datensatz treten bestimmte Muster häufiger auf als andere.

Was die Erscheinungsjahre betrifft: In den Trainingsdaten folgt auf die Zeichenfolge „Star Wars“ millionenfach die Zahl „1977“. Die Wahrscheinlichkeit, dass auf „Star Wars“ die Zahl „1977“ folgt, liegt bei fast 100 %.

Was Staffeln und Episoden angeht, taucht „Staffel 1“ bei einer Serie mittlerer Beliebtheit in den Trainingsdaten viel häufiger auf als „Staffel 7“. Ist sich das LLM hinsichtlich der Fakten unsicher, greift es standardmäßig auf das häufigste Muster in seinen Trainingsdaten zurück, das in der Regel niedrigere Zahlen (1, 2 oder 3) enthält.

Semantische Schwerkraft

„Wahrscheinliche Abfolgen“ werden auch vom Stil des Inhalts bestimmt. Deshalb neigen Episodentitel so sehr zu Halluzinationen. Wenn man ein LLM bittet, eine Episode von „Friends“ zu nennen, kennt es das Muster: „Die Folge mit …“

Die Wahrheit ist: Es gibt keine Folge mit dem Titel „Die mit der Sonnenfinsternis“.
Die Täuschung: Da „The One With…“ ein sehr häufig verwendetes Präfix ist und „Solar Eclipse“ ein gängiges TV-Klischee darstellt (es signalisiert dem Publikum, dass „es gleich seltsam wird“), kombiniert das LLM beide Elemente zu einer „wahrscheinlichen Sequenz“. Die Antwort klingt zu 100 % authentisch, da sie den semantischen Regeln der Episodentitel von „Friends“ folgt, auch wenn sie sachlich falsch ist.

Das Problem mit den ganzen Zahlen: Zeichen vs. Zahlen

Große Sprachmodelle „zählen“ nicht so wie Menschen. Sie betrachten Zahlen als Fragmente, sodass die Zahl 154 beispielsweise als zwei Einheiten verarbeitet werden könnte: 15 und 4.

Wenn ein untrainiertes LLM eine Episodennummer vorhersagt, greift es nicht auf eine Datenbank zurück. Es fragt vielmehr: „Welche Ziffer folgt in einer Zahlenfolge, die auf den Titel dieser Serie folgt, normalerweise als Nächstes?“

Wenn die Trainingsdaten zeigen, dass die Serie etwa 20 Folgen pro Staffel umfasst, und das LLM bereits „Staffel 2“ generiert hat, wird es statistisch gesehen jede Zahl zwischen 1 und 20 bevorzugen. Die konkrete Wahl zwischen „12“ und „13“ ist oft reine Glückssache, die auf „Rauschen“ im Modell beruht, und man könnte auf dieselbe Eingabe unterschiedliche Antworten erhalten.

Warum Halluzinationen so überzeugend wirken

Ein LLM kennt keinen „Ich weiß es nicht“-Zustand, es sei denn, es wurde speziell darauf abgestimmt. In der Regel wählt es eine „wahrscheinliche Sequenz“ aus und generiert Token mit hoher mathematischer Konfidenz, eine sogenannte „Wahrscheinlichkeitskarte“. Hier ist ein Beispiel für eine Wahrscheinlichkeitskarte in Bezug auf Regissernamen:

Eingabe: Der Regisseur des Films „Titanic“ (1997) ist…

Wahrscheinlichkeiten für das nächste Token:

James: 99,2 %
Steven: 0,3 %
George: 0,1 %

Das zu erwartende Ergebnis aufgrund der überwältigenden Assoziation zwischen James Cameron und dem Film „Titanic“.

Eingabe: Der Regisseur der TV-Folge „Die Fliege“ ist…

Wahrscheinlichkeiten für das nächste Token:

Vince (Showrunner, Breaking Bad): 45 %
Rian (Regisseur, „Breaking Bad“, Staffel 3, Folge 10): 30 %
Michelle (häufige Regisseurin): 20 %

In diesem zweiten Beispiel wählt das LLM Vince (Gilligan) aus, da er insgesamt „wahrscheinlicher“ mit dem Text der Serie in Verbindung gebracht wird, obwohl er diese bestimmte Folge nicht inszeniert hat. Da es zu dieser Folge weniger schriftliches Material gibt (im Vergleich zum Titanic-Beispiel ), führt das relativ geringe Trainingsdatenvolumen dazu, dass die Wahrscheinlichkeitskarte eher eine falsche Antwort liefert.

Halluzinationen: Wie hoch ist das Risiko?

Warum LLMs Halluzinationen haben

Großes Sprachmodelle in der Unterhaltungsbranche

Bewertung des Risikos von Halluzinationen anhand von Metadatenattributen

Allgemeine Eigenschaften

Filmeigenschaften

Merkmale der Fernsehsendung

Attribute von TV-Folgen und -Staffeln

Der mathematische Weg des geringsten Widerstands

Semantische Schwerkraft

Das Problem mit den ganzen Zahlen: Zeichen vs. Zahlen

Warum Halluzinationen so überzeugend wirken

Verwandte Tags

Teilen

Neueste Erkenntnisse

Kann KI die richtige TV-Folge finden? Nicht zuverlässig.

Warum nicht auf Daten basierende große Sprachmodelle das Problem der Inhaltssuche nicht lösen können

Handlungslücken in der KI

Kontakt

Vielen Dank, dass Sie sich an uns gewandt haben!