Mit der zunehmenden Verbreitung und Nutzung künstlicher Intelligenz (KI) wächst auch das Bewusstsein dafür, dass sie möglicherweise falsche Aussagen als Tatsachen präsentiert. Diese „Halluzinationen“ – plausibel klingende, aber falsche Informationen – sind ein bekanntes Risiko im Zusammenhang mit dem Einsatz von KI, doch vielen ist nicht bewusst, wie gravierend sie sein können. Wenn Menschen die mit Halluzinationen verbundenen Risiken nicht verstehen, sind sie nicht in der Lage, deren Auswirkungen einzuschätzen.
In der Medienbranche werden große Sprachmodelle (LLMs) – eine Art generativer KI, die darauf trainiert ist, menschliche Sprache zu verstehen und zu generieren – zur Standardtechnologie für Unterhaltungserlebnisse der nächsten Generation. Der Erfolg in diesem Bereich hängt jedoch davon ab, dass LLMs durch zuverlässige externe Datenquellen untermauert werden, um die Bereitstellung präziser, aktueller und relevanter Ergebnisse zu gewährleisten. Dieser Prozess wird als „Grounding“ bezeichnet.
Wichtig ist, dass LLMs keine Datenbanken sind und keine Daten im herkömmlichen Sinne speichern. Es handelt sich um Wahrscheinlichkeitsmatrizen, die auf der Grundlage umfassender, aber endlicher Datenmengen trainiert wurden. Folglich generieren sie Antworten, anstatt Fakten abzurufen und wiederzugeben. In der Praxis besteht die Hauptaufgabe von LLMs darin, den wahrscheinlichsten Textabschnitt (z. B. ein Token) in einem statistisch vorgegebenen Muster vorherzusagen. Wenn das sprachlich plausibelste nächste Wort in einer Sequenz zufällig falsch ist, liefert das LLM es trotzdem aus, da es zum Muster passt.

Der wesentliche, probabilistische Charakter der Technologie selbst ist also die Hauptursache für Halluzinationen, doch diese technologische Schwachstelle wird durch die Daten, mit denen die Modelle trainiert werden, noch verstärkt. Modelle neigen besonders zu Halluzinationen, wenn sie aufgefordert werden, Fragen zu beantworten, zu denen in ihrem Trainingsdatensatz nur wenige oder gar keine themenbezogenen Daten vorhanden sind oder wenn die relevanten Trainingsdaten widersprüchlich sind. Dies zeigt sich besonders deutlich in Anwendungsfällen in den Medien, in denen Fragen zu aktuellen Veröffentlichungen, aktuellen Ereignissen (wie den jüngsten Oscar-Verleihungen) und weniger bekannten oder Nischentiteln gestellt werden.
Das Internet trägt hier einen Großteil der Schuld, da es als primäre Datenquelle für das Training von LLMs dient. Die Verankerung eines LLM in realen, verifizierten Daten ist der wichtigste Schutz gegen Halluzinationen. Die Verankerungsmethoden variieren ebenso wie die Datenquellen, auf die sie zurückgreifen. Folglich ist jedes einzelne LLM nur so zuverlässig wie die Daten, auf die es zugreifen kann. Bis zum Jahr 2026 sind keine LLMs frei von Halluzinationen, und angesichts der Natur dieser Technologie wird sich daran in naher Zukunft wohl auch nichts ändern. Grounding ist tatsächlich der einzige gangbare Ansatz, um Halluzinationen einzudämmen.
Im Zuge der zunehmenden Verbreitung und Nutzung von KI sind Unterhaltungsanbieter bestrebt, das Erlebnis ihrer Inhalte für ihre Kunden weiter zu verbessern. In diesem Bereich bietet KI erhebliche Vorteile gegenüber herkömmlichen Datenbank- und Suchtechnologien. Leistungsstarke Ranking- und Sortierfunktionen, hochgradig personalisierte Empfehlungen, die Harmonisierung von Inhaltskatalogen und die dialogorientierte Suche zählen zu den wichtigsten Vorteilen, die große Sprachmodelle (LLMs) bieten können.
Metadaten sind die Grundlage für den Erfolg jedes großen Sprachmodells (LLM), dessen Aufgabe es ist, die Art und Weise zu revolutionieren, wie Menschen Inhalte erleben. Während dem Nutzer vielleicht nur 10 oder 20 Metadatenattribute zu einem bestimmten Film oder einer bestimmten Fernsehsendung angezeigt werden, erfassen Streamingdienste und Studios oft Hunderte – ja sogar Tausende – von Datenpunkten für einzelne Titel.
Wichtig ist, dass das Halluzinationsrisiko nicht bei allen Metadatenattributen gleich hoch ist. Bestimmte Attribute, wie beispielsweise Inhaltstyp und Genre, bergen ein sehr geringes Halluzinationsrisiko, da LLMs besonders dann ihre Stärken ausspielen, wenn sich die Wahrscheinlichkeitsantworten auf strukturierte Logik und kategoriale Zuordnungen konzentrieren.
Wenn Metadatenattribute jedoch sehr spezifisch sind, steigt das Risiko von Halluzinationen erheblich. Beispielsweise bergen Inhalts-IDs und mathematische Attribute ein sehr hohes Halluzinationsrisiko. In diesen Fällen „raten“ LLMs selbstbewusst eine Zahl, die sie für plausibel halten, die aber faktisch falsch ist. Beispielsweise werden Zahlen oft in Untertokens zerlegt. So könnte ein LLM die Zahl 154 als 15 und 4 erkennen. Bei der Konstruktion dieser Werte versagt die „Mathematik“ oft, was zu „Off-by-One“-Fehlern führt.
Staffel- und Episodennummern stellen aufgrund der Funktionsweise von LLMs eine besondere Herausforderung dar. Hat ein LLM beispielsweise 1.000 Episoden der Simpsons gesehen, weiß es, dass es eine 10. Staffel und eine 5. Episode gibt. Fragt ein Zuschauer nach einer Nischenserie mit nur sechs Episoden, könnte das Modell dennoch zu einer höheren Zahl tendieren, da die meisten Serien, mit denen es trainiert wurde, längere Staffeln haben.
Angesichts der Vielzahl der vorhandenen Metadatenattribute sind nicht alle grundsätzlich anfällig für Halluzinationen.
Das Risiko von Fehlinterpretationen hinsichtlich eines Regisseurs ist beispielsweise bei großen Studio-Produktionen anders als bei kleinen, unabhängigen Filmen. Hier könnte eine Verwechslung der Mitwirkenden dazu führen, dass ein LLM einen Produzenten oder einen bekannten zeitgenössischen Filmemacher fälschlicherweise als Regisseur identifiziert.
Schauen wir uns das Risiko von Halluzinationen bei bestimmten Inhaltstypen und Metadatenattributen genauer an.
| Attribut | Risiko von Halluzinationen | Begründung |
| Gracenote (oder eine beliebige Kennung) | Kritisch | Nicht-semantische Zeichenfolgen: IDs sind für ein Sprachmodell semantischer Unsinn, daher erfinden LLMs einfach eine Zeichenfolge, die wie zuvor gesehene Bezeichner aussieht. LLMs melden keine korrekten TMSIDs für Titel, die nicht zu den vereinzelten Bezeichnern gehören, die in der öffentlichen Dokumentation Gracenoteaufgeführt sind. |
| Typ | Sehr niedrig | Strukturelle Logik: Modelle erkennen in der Regel anhand des Kontexts, ob es sich um einen Film oder eine Serie handelt. Es kommt selten vor, dass sie einen „Film“ fälschlicherweise als „Folge“ interpretieren, wenn der Titel angegeben ist. Allerdings neigen Modelle dazu, Serien und Filme mit demselben Titel zu verwechseln, insbesondere wenn sie denselben Darsteller haben. |
| Schauspieler | Niedrig | Assoziationsverzerrung: Große Sprachmodelle (LLMs) erzielen bei bekannten Namen eine hohe Genauigkeit, können jedoch einen Schauspieler fälschlicherweise einem Projekt zuordnen, in dem er nie mitgewirkt hat – einfach nur, weil er häufig mit diesem Regisseur oder in einem verwandten Genre arbeitet. |
| Genre | Niedrig | Kategorische Zuordnung: Grundsätzlich gibt es eine endliche Liste von Genres. Große Sprachmodelle (LLMs) sind im Allgemeinen gut darin, „The Batman“ als „Action/Krimi“ einzustufen, auch wenn ihnen Untergenres möglicherweise entgehen und ihre Antworten nicht mit einer Standard-Taxonomie übereinstimmen. |
| Beschreibung | Niedrig | Generative Stärke: LLMs sind in der Regel in der Lage, eine plausible Zusammenfassung zu erstellen. Hierbei handelt es sich um „weiche“ Daten, bei denen der Begriff „Genauigkeit“ subjektiv ist. Dies setzt jedoch voraus, dass LLMs Titel mit demselben Namen nicht verwechseln oder vermischen. Die Beschreibung entspricht nicht den redaktionellen Standards (z. B. keine Spoiler), sofern keine spezifischen Vorgaben gemacht werden. |
| Bilder | Kritisch | Keine Klärung der Nutzungsrechte: LLMs können nicht überprüfen, ob eine Bild-URL aktiv oder relevant ist. Oftmals generieren sie einen wahrscheinlichen Pfad, und alle Bilder, die korrekt geladen werden, sind nicht typisiert und ihre Nutzungsrechte sind unbekannt. |
| Dauer | Mittel | Rückkehr zum Mittelwert: LLMs neigen dazu, Standardlängen (22 m, 44 m, 90 m, 120 m) zu schätzen, anstatt die genaue Laufzeit auf Frame-Ebene anzugeben. |
| Attribut | Risiko von Halluzinationen | Begründung |
| Jahr | Mittel | Historischer Hinweis: Die Erscheinungsjahre von Filmen gelten als „Ankerfakten“ in den Trainingsdaten von LLM-Modellen. Bei wenig bekannten Indie-Filmen und unveröffentlichten Projekten steigt das Risiko. Gracenote haben jedoch gezeigt, dass Erscheinungsjahre nicht selten um ein Jahr verfehlt werden. |
| Direktor | Mittel | Verwirrung bei den Credits: LLMs neigen weniger dazu, bei bekannten Filmen falsche Angaben zum Regisseur zu machen. Bei weniger bekannten Filmen kann es vorkommen, dass LLMs den Produzenten oder eine bekanntere zeitgenössische Persönlichkeit fälschlicherweise als Regisseur angeben. |
| Attribut | Risiko von Halluzinationen | Begründung |
| Zeitraum | Mittel | Drift: LLMs geben das Startjahr in der Regel korrekt an, erfinden jedoch ein Endjahr, wenn die Serie nach dem Stichtag des Modelltrainings abgesetzt oder verlängert wurde, sofern die Serie fortgesetzt wird. |
| Urheber | Mittel | Rollenverwirrung: Große Sprachmodelle haben oft Schwierigkeiten mit bestimmten Rollen in einer Produktion. Sie wissen zwar vielleicht, dass „Vince Gilligan ‚Breaking Bad‘ geschaffen hat“, aber häufig bilden sie sich falsche Vorstellungen über die Beziehungen zwischen Personen und deren Beteiligung an einem bestimmten Titel ein. |
| Anzahl der Spielzeiten | Hoch | Wissensstand: Eine Serie, die heute fünf Staffeln umfasst, hatte zum Zeitpunkt des Modelltrainings möglicherweise erst drei. Daher gibt das LLM die alte Zahl als „Fakt“ an. Generell sind LLMs bei ganzen Zahlen nicht zuverlässig, da Zahlen nicht als Fakten „gespeichert“ werden. Vielmehr werden sie auf der Grundlage ähnlicher Daten vorhergesagt. |
| Attribut | Risiko von Halluzinationen | Begründung |
| Titel der Folge | Hoch | Semantisches Erraten: Bei bekannten Episoden (z. B. „The Rains of Castamere“) ist die Genauigkeit hoch. Bei weniger bekannten Episoden erfinden LLMs einen Titel, der so „klingt“, als gehöre er zu dieser Serie (z. B. eine „Friends“-Episode mit dem Titel „The One with the Coffee“). |
| Staffelnummer | Hoch | Vorhersagewahrscheinlichkeit: LLMs behandeln Staffelnummern als „wahrscheinliche Abfolgen“. Wenn eine Serie schon lange läuft, könnte das Modell statt Staffel 5 Staffel 4 vorhersagen, da beide in seinen Gewichtungen gleich „wahrscheinlich“ sind. |
| Folgennummer | Hoch | Fehlende Indexierung: Ohne Ankerpunkte kann das LLM die Position einer Episode nur erraten. Dabei kommt es häufig zu „Off-by-One“-Fehlern. |
| Erstausstrahlung | Hoch | Mustererkennung: LLMs wissen vielleicht, dass eine Sendung „2014 donnerstags“ ausgestrahlt wurde, und generieren dann ein plausibel klingendes Datum an einem Donnerstag, das sachlich falsch ist. |
| Direktor | Hoch | Verwässerung der Urheberschaft: Die Regisseure der einzelnen Episoden wechseln ständig. Sofern eine Episode keinen berühmten „Gastregisseur“ hat (z. B. Tarantino bei „CSI“), vermuten LLMs in der Regel den Showrunner oder einen Regisseur, der häufig bei der Serie mitwirkt. |
Große Sprachmodelle (LLMs) werden darauf trainiert, den „Verlust“ zu minimieren, was bedeutet, dass sie gemäß ihren Trainingsdaten so „korrekt“ wie möglich sein wollen. In einem riesigen Datensatz treten bestimmte Muster häufiger auf als andere.
Was die Erscheinungsjahre betrifft: In den Trainingsdaten folgt auf die Zeichenfolge „Star Wars“ millionenfach die Zahl „1977“. Die Wahrscheinlichkeit, dass auf „Star Wars“ die Zahl „1977“ folgt, liegt bei fast 100 %.
Was Staffeln und Episoden angeht, taucht „Staffel 1“ bei einer Serie mittlerer Beliebtheit in den Trainingsdaten viel häufiger auf als „Staffel 7“. Ist sich das LLM hinsichtlich der Fakten unsicher, greift es standardmäßig auf das häufigste Muster in seinen Trainingsdaten zurück, das in der Regel niedrigere Zahlen (1, 2 oder 3) enthält.
„Wahrscheinliche Abfolgen“ werden auch vom Stil des Inhalts bestimmt. Deshalb neigen Episodentitel so sehr zu Halluzinationen. Wenn man ein LLM bittet, eine Episode von „Friends“ zu nennen, kennt es das Muster: „Die Folge mit …“
Große Sprachmodelle „zählen“ nicht so wie Menschen. Sie betrachten Zahlen als Fragmente, sodass die Zahl 154 beispielsweise als zwei Einheiten verarbeitet werden könnte: 15 und 4.
Wenn ein untrainiertes LLM eine Episodennummer vorhersagt, greift es nicht auf eine Datenbank zurück. Es fragt vielmehr: „Welche Ziffer folgt in einer Zahlenfolge, die auf den Titel dieser Serie folgt, normalerweise als Nächstes?“
Wenn die Trainingsdaten zeigen, dass die Serie etwa 20 Folgen pro Staffel umfasst, und das LLM bereits „Staffel 2“ generiert hat, wird es statistisch gesehen jede Zahl zwischen 1 und 20 bevorzugen. Die konkrete Wahl zwischen „12“ und „13“ ist oft reine Glückssache, die auf „Rauschen“ im Modell beruht, und man könnte auf dieselbe Eingabe unterschiedliche Antworten erhalten.
Ein LLM kennt keinen „Ich weiß es nicht“-Zustand, es sei denn, es wurde speziell darauf abgestimmt. In der Regel wählt es eine „wahrscheinliche Sequenz“ aus und generiert Token mit hoher mathematischer Konfidenz, eine sogenannte „Wahrscheinlichkeitskarte“. Hier ist ein Beispiel für eine Wahrscheinlichkeitskarte in Bezug auf Regissernamen:
Eingabe: Der Regisseur des Films „Titanic“ (1997) ist…
Wahrscheinlichkeiten für das nächste Token:
Das zu erwartende Ergebnis aufgrund der überwältigenden Assoziation zwischen James Cameron und dem Film „Titanic“.
Eingabe: Der Regisseur der TV-Folge „Die Fliege“ ist…
Wahrscheinlichkeiten für das nächste Token:
In diesem zweiten Beispiel wählt das LLM Vince (Gilligan) aus, da er insgesamt „wahrscheinlicher“ mit dem Text der Serie in Verbindung gebracht wird, obwohl er diese bestimmte Folge nicht inszeniert hat. Da es zu dieser Folge weniger schriftliches Material gibt (im Vergleich zum Titanic-Beispiel ), führt das relativ geringe Trainingsdatenvolumen dazu, dass die Wahrscheinlichkeitskarte eher eine falsche Antwort liefert.
Damit LLMs für Unternehmen die Inhaltserlebnisse der nächsten Generation bieten können, zu denen sie fähig sind, ist der Zugriff auf vertrauenswürdige, branchenspezifische Daten von entscheidender Bedeutung.
GenAI hat das Potenzial, Menschen mit den Inhalten zu verbinden, nach denen sie suchen, doch Vertrauen stellt dabei eine erhebliche Hürde dar.
Die Art und Weise, wie Menschen nach Informationen suchen, verändert sich, doch ohne die richtigen Daten wird die KI lediglich bestätigen, dass man ihr nicht trauen kann.
Füllen Sie das Formular aus, um uns zu kontaktieren!
Ihre Anfrage ist bei uns eingegangen und unser Team freut sich darauf, Ihnen weiterzuhelfen. Wir werden Ihre Anfrage umgehend prüfen und Ihnen so schnell wie möglich antworten.