Hallucinaties: wat zijn de risico’s?

Kunstmatige intelligentie Contentontdekking

Naarmate kunstmatige intelligentie (AI) steeds vaker wordt ingezet en gebruikt, groeit ook het besef dat AI onjuiste beweringen als feiten kan presenteren. Deze ‘hallucinaties’ – informatie die aannemelijk klinkt maar onjuist is – vormen een bekend risico bij het gebruik van AI, maar velen beseffen niet hoe ernstig de gevolgen hiervan kunnen zijn. Wanneer mensen de risico’s van hallucinaties niet begrijpen, zijn ze niet in staat de implicaties ervan in te schatten.

In de media-industrie zullen grote taalmodellen (LLM’s) – een vorm van generatieve AI die is getraind om menselijke taal te begrijpen en te genereren – de standaardmotoren worden die entertainmentervaringen van de volgende generatie bieden. Succes op dit gebied hangt echter af van het onderbouwen van LLM’s met betrouwbare, externe gegevensbronnen, om te garanderen dat er nauwkeurige, actuele en relevante resultaten worden geleverd. Dit proces wordt ‘grounding’ genoemd.

Waarom LLM’s hallucineren

Belangrijk is dat LLM’s geen databases zijn en geen gegevens opslaan in de traditionele zin van het woord. Het zijn waarschijnlijkheidsmatrices die zijn getraind op basis van uitgebreide, maar eindige gegevens. Daardoor genereren ze antwoorden in plaats van feiten op te halen en weer te geven. In de praktijk is de primaire taak van LLM's het voorspellen van het meest waarschijnlijke stukje tekst (bijv. een token) in een statistisch voorgeschreven patroon. Als het taalkundig meest aannemelijke volgende woord in een reeks toevallig onjuist is, zal de LLM het toch weergeven omdat het in het patroon past.

De inherente, probabilistische aard van de technologie zelf is dus de belangrijkste oorzaak van hallucinaties, maar deze technologische kwetsbaarheid wordt nog versterkt door de gegevens waarop de modellen zijn getraind. Modellen zijn bijzonder vatbaar voor hallucinaties wanneer ze worden gevraagd om vragen te beantwoorden terwijl er weinig of geen actuele gegevens in hun trainingsdataset aanwezig zijn of wanneer de relevante trainingsgegevens tegenstrijdig zijn. Dit komt vooral duidelijk naar voren in mediatoepassingen waar vragen worden gesteld over recente releases, recente gebeurtenissen (zoals de laatste Academy Awards) en minder bekende of marginale titels.

Het internet draagt hier een groot deel van de schuld, aangezien het fungeert als de belangrijkste dataset voor het trainen van LLM’s. Het ‘gronden’ van een LLM met geverifieerde gegevens uit de echte wereld is de belangrijkste verdedigingsmaatregel tegen hallucinaties. De grondingsmethoden lopen uiteen, net als de gegevensbronnen waarop ze een beroep doen. Daardoor is een individuele LLM slechts zo betrouwbaar als de gegevens waartoe hij toegang heeft. Vanaf 2026 zijn er geen LLM's die vrij zijn van hallucinaties, en gezien de aard van de technologie zal deze realiteit waarschijnlijk niet snel veranderen. Grounding is eigenlijk de enige haalbare aanpak om hallucinaties te beperken.

Grote taalmodellen in de entertainmentindustrie

Naarmate AI op grotere schaal wordt geïmplementeerd en gebruikt, streven entertainmentaanbieders ernaar de content die zij hun klanten bieden naar een hoger niveau te tillen. Op dit gebied biedt AI aanzienlijke voordelen ten opzichte van traditionele database- en zoektechnologieën. Krachtige functies voor rangschikking en sortering, hypergepersonaliseerde aanbevelingen, harmonisatie van content en conversatiegerichte zoekfuncties behoren tot de belangrijkste voordelen die LLM’s kunnen bieden.

Metadata vormt de basis voor het succes van elk groot taalmodel (LLM) dat tot doel heeft de manier waarop mensen content beleven radicaal te veranderen. Hoewel de consument misschien slechts 10 of 20 metagegevensattributen voor een bepaalde film of tv-serie te zien krijgt, houden streamingdiensten en filmstudio’s vaak honderden – of zelfs duizenden – gegevenspunten bij voor afzonderlijke titels.

Belangrijk is dat het risico op hallucinaties niet voor alle metagegevensattributen even groot is. Bepaalde attributen, zoals content en genre, brengen een zeer laag risico op hallucinaties met zich mee, omdat grote taalmodellen uitblinken wanneer hun waarschijnlijkheidsantwoorden zijn gebaseerd op gestructureerde logica en categorische toewijzingen.

Wanneer metagegevensattributen echter zeer uniek zijn, neemt het risico op hallucinaties aanzienlijk toe. Content-ID’s en wiskundige attributen brengen bijvoorbeeld een zeer hoog risico op hallucinaties met zich mee. In deze gevallen zal een LLM vol vertrouwen een getal 'raden' dat het aannemelijk acht, maar dat feitelijk onjuist is. Getallen worden bijvoorbeeld vaak opgesplitst in subtokens. Een LLM kan het getal 154 dus zien als 15 en 4. Bij het samenstellen hiervan gaat de 'wiskunde' vaak mis, wat leidt tot 'off-by-one'-fouten.

Seizoen- en afleveringsnummers vormen een bijzondere uitdaging vanwege de manier waarop grote taalmodellen (LLM’s) werken. Als een LLM bijvoorbeeld 1.000 afleveringen van The Simpsons heeft gezien, weet het dat er een aflevering 5 van seizoen 10 bestaat. Als een kijker vraagt naar een nicheprogramma met slechts zes afleveringen, kan het model toch geneigd zijn een hoger nummer te noemen, omdat de meeste programma’s waarop het is getraind langere seizoenen hebben.

Beoordeling van het risico op hallucinaties aan de hand van metagegevenskenmerken

Gezien het grote aantal metadata-attributen dat er bestaat, zijn niet alle attributen even vatbaar voor hallucinaties.

Het risico op een verkeerde identificatie van bijvoorbeeld een regisseur is bij grote studioproducties anders dan bij kleine, onafhankelijke films. In dit geval zou een verwarring in de aftiteling ertoe kunnen leiden dat een LLM een producent of een beroemde hedendaagse filmmaker ten onrechte als regisseur identificeert.

Laten we eens nader kijken naar het risico op hallucinaties bij verschillende content en metagegevenskenmerken.

Algemene kenmerken

Kenmerk	Risico op hallucinaties	Redenering
Gracenote (of een andere identificatiecode)	Kritisch	Niet-semantische tekenreeksen: ID’s zijn voor een taalmodel semantische wartaal, dus LLM’s zullen simpelweg een tekenreeks verzinnen die lijkt op identificatiecodes die ze eerder hebben gezien. LLM’s zullen niet de juiste TMSID rapporteren voor titels die buiten de incidentele identificatiecodes vallen die in de openbare documentatie Gracenoteworden vermeld.
Type	Zeer laag	Structurele logica: Modellen weten meestal aan de hand van de context of ze het over een film of een serie hebben. Het komt zelden voor dat ze een ‘film’ als een ‘aflevering’ interpreteren als de titel wordt vermeld. Modellen zullen echter wel de neiging hebben om series en films met dezelfde titel door elkaar te halen, vooral als ze een gemeenschappelijke acteur of actrice hebben.
Acteurs	Laag	Associatieve vertekening: grote taalmodellen (LLM’s) zijn zeer nauwkeurig als het gaat om bekende namen, maar ze kunnen een acteur ten onrechte koppelen aan een project waar hij of zij nooit aan heeft meegewerkt, simpelweg omdat die acteur vaak met die regisseur werkt of binnen een verwant genre actief is.
Genre	Laag	Categorische indeling: In principe is er een eindige lijst met genres. Grote taalmodellen (LLM’s) zijn over het algemeen goed in het classificeren van „The Batman“ als „actie/misdaad“, hoewel ze subgenres soms over het hoofd zien en hun antwoorden niet overeenkomen met een standaardtaxonomie.
Beschrijving	Laag	Generatieve kracht: LLM’s kunnen doorgaans een aannemelijke samenvatting genereren. Dit zijn ‘zachte’ gegevens, waarbij ‘nauwkeurigheid’ subjectief is. Hierbij wordt echter wel verondersteld dat LLM’s titels met dezelfde naam niet door elkaar halen of vermengen. De beschrijving voldoet niet aan redactionele normen (bijv. geen spoilers), tenzij er specifiek om regels wordt gevraagd.
Afbeeldingen	Kritisch	Geen verificatie van gebruiksrechten: LLM’s kunnen niet controleren of een afbeeldings-URL actief of relevant is. Ze zullen vaak een aannemelijk scenario bedenken, en afbeeldingen die wel correct worden geladen, zijn niet getypeerd en hebben onbekende gebruiksrechten.
Duur	Medium	Terugkeer naar het gemiddelde: LLM’s hebben de neiging om standaardlengtes (22 m, 44 m, 90 m, 120 m) te schatten in plaats van de specifieke, tot op het frame nauwkeurige looptijd.

Filmkenmerken

Kenmerk	Risico op hallucinaties	Redenering
Jaar	Medium	Historische indicator: De uitbrengjaren van films vormen „ankerpunten“ in de trainingsdata van LLM’s. Het risico neemt toe bij onbekende onafhankelijke films en nog niet uitgebrachte projecten. Gracenote is echter gebleken dat uitbrengjaren niet zelden met één jaar worden vertekend.
Directeur	Medium	Verwarring over de credits: LLM’s hebben minder snel de neiging om regisseurs van bekende films te verzinnen. Bij minder bekende films kunnen LLM’s de producent of een bekendere tijdgenoot verzinnen en hen de rol van regisseur toekennen.

Kenmerken van het tv-programma

Kenmerk	Risico op hallucinaties	Redenering
Jaarbereik	Medium	Opmerking: Grote taalmodellen geven het startjaar doorgaans correct weer, maar zullen een eindjaar ‘verzinnen’ als de serie is stopgezet of verlengd na de afsluitingsdatum van de training van het model, mits de serie nog steeds loopt.
Maker	Medium	Verwarring over rollen: Grote taalmodellen hebben vaak moeite met het onderscheiden van specifieke rollen in een productie. Ze weten misschien wel dat „Vince Gilligan Breaking Bad heeft bedacht“, maar ze verwarren vaak de relatie tussen personen en hun betrokkenheid bij een specifieke titel.
Aantal seizoenen	Hoog	Kennisgrens: Een serie die vandaag de dag vijf seizoenen telt, had er misschien slechts drie toen het model werd getraind. Daarom zal het LLM het oude aantal als „feit“ vermelden. Over het algemeen zijn LLM’s niet betrouwbaar als het om gehele getallen gaat, aangezien getallen niet als feiten worden „opgeslagen“. Ze worden veeleer voorspeld op basis van vergelijkbare gegevens.

Kenmerken van tv-afleveringen en -seizoenen

Kenmerk	Risico op hallucinaties	Redenering
Titel van de aflevering	Hoog	Semantisch raden: Bij bekende afleveringen (bijvoorbeeld „The Rains of Castamere“) is de nauwkeurigheid hoog. Bij minder bekende afleveringen verzinnen LLM’s een titel die „klinkt alsof“ hij bij die serie hoort (bijvoorbeeld een aflevering van Friends met de titel „The One with the Coffee“).
Seizoensnummer	Hoog	Voorspellingskans: LLM’s beschouwen seizoensnummers als ‘waarschijnlijke reeksen’. Als een serie al lang loopt, kan het model seizoen 4 raden in plaats van seizoen 5, omdat beide in de weging even ‘waarschijnlijk’ zijn.
Aflevering nummer	Hoog	Gebrek aan indexering: zonder basisgegevens kan het LLM de positie van een aflevering alleen maar raden. Het maakt daardoor vaak „off-by-one“-fouten.
Oorspronkelijke uitzenddatum	Hoog	Patroonherkenning: grote taalmodellen (LLM’s) weten misschien dat een programma „op donderdagen in 2014“ werd uitgezonden en verzinnen dan een aannemelijke donderdagdatum die feitelijk onjuist is.
Directeur	Hoog	Verwatering van de credits: De regisseurs van de afleveringen wisselen voortdurend. Tenzij een aflevering een beroemde „gastregisseur“ heeft (bijvoorbeeld Tarantino die CSI regisseert), zullen LLM’s doorgaans gokken op de showrunner of een regisseur die vaak aan de serie meewerkt.

De wiskundige weg van de minste weerstand

Grote taalmodellen (LLM’s) zijn getraind om ‘verlies’ te minimaliseren, wat betekent dat ze zo ‘correct’ mogelijk willen zijn op basis van hun trainingsgegevens. In een enorme dataset komen bepaalde patronen vaker voor dan andere.

Wat betreft de jaar van uitgave: in de trainingsdata wordt de tekenreeks „Star Wars“ miljoenen keren gevolgd door „1977“. De kans dat „1977“ volgt op „Star Wars“ is bijna 100%.

Wat seizoenen en afleveringen betreft, komt ‘seizoen 1’ voor een middelgrote serie veel vaker voor in de trainingsdata dan ‘seizoen 7’. Als het LLM twijfelt over de feiten, kiest het standaard voor het meest voorkomende patroon in de trainingsdata, dat doorgaans lagere getallen bevat (1, 2 of 3).

Semantische zwaartekracht

"Waarschijnlijke reeksen" worden ook bepaald door de stijl van de content. Daarom zijn afleveringstitels zo vatbaar voor hallucinaties. Als je een groot taalmodel vraagt om een aflevering van Friends te noemen, kent het het patroon: "The One With…"

De realiteit: er is geen aflevering met de titel „Die met de zonsverduistering“.
De illusie: Omdat „The One With…“ een veelvoorkomend voorvoegsel is en „Solar Eclipse“ een gangbaar tv-cliché (het geeft het publiek het signaal dat „het er vreemd aan toe gaat“), combineert het LLM deze tot een „waarschijnlijke reeks“. Het antwoord klinkt 100% authentiek omdat het de semantische regels van de afleveringstitels van Friends volgt, ook al is het feitelijk onjuist.

Het probleem met gehele getallen: tokens versus getallen

Grote taalmodellen ‘tellen’ niet op dezelfde manier als mensen. Ze beschouwen getallen als afzonderlijke delen, dus het getal 154 kan worden verwerkt als twee afzonderlijke eenheden: 15 en 4.

Wanneer een ongetrainde LLM een afleveringsnummer voorspelt, raadpleegt hij geen database. Hij vraagt zich af: „Welk cijfer volgt er meestal in een reeks getallen na de titel van deze serie?“

Als uit de trainingsgegevens blijkt dat de serie ongeveer 20 afleveringen per seizoen telt en het LLM al „seizoen 2“ heeft gegenereerd, zal het statistisch gezien de voorkeur geven aan elk getal tussen 1 en 20. De specifieke keuze tussen „12“ en „13“ is vaak een kwestie van geluk, afhankelijk van de „ruis“ in het model, en je zou verschillende antwoorden kunnen krijgen op dezelfde prompt.

Waarom hallucinaties er zo overtuigend uitzien

Een LLM kent geen ‘ik weet het niet’-toestand, tenzij het daar specifiek op is afgestemd. Meestal kiest het voor een ‘waarschijnlijke reeks’ en genereert het tokens met een hoge wiskundige betrouwbaarheid, een ‘waarschijnlijkheidskaart’. Hier is een voorbeeld van een waarschijnlijkheidskaart met betrekking tot regisseursnamen:

Vraag: De regisseur van de film Titanic (1997) is…

Waarschijnlijkheden voor de volgende token:

James: 99,2%
Steven: 0,3%
George: 0,1%

Het verwachte resultaat, gezien de overweldigende associatie tussen James Cameron en de film Titanic.

Vraag: De regisseur van de tv-aflevering ‘The Fly’ is…

Waarschijnlijkheden voor de volgende token:

Vince (showrunner, Breaking Bad): 45%
Rian (regisseur van Breaking Bad, seizoen 3, aflevering 10): 30%
Michelle (vaste regisseur): 20%

In dit tweede voorbeeld kiest het LLM voor Vince (Gilligan), omdat hij over het algemeen „waarschijnlijker“ in verband wordt gebracht met de tekst van de serie, ook al heeft hij die specifieke aflevering niet geregisseerd. Aangezien er minder geschreven materiaal over deze aflevering beschikbaar is (in vergelijking met het Titanic-voorbeeld ), leidt de relatief beperkte hoeveelheid trainingsgegevens ertoe dat de waarschijnlijkheidskaart eerder een onjuist antwoord zal opleveren.

Hallucinaties: wat zijn de risico’s?

Waarom LLM’s hallucineren

Grote taalmodellen in de entertainmentindustrie

Beoordeling van het risico op hallucinaties aan de hand van metagegevenskenmerken

Algemene kenmerken

Filmkenmerken

Kenmerken van het tv-programma

Kenmerken van tv-afleveringen en -seizoenen

De wiskundige weg van de minste weerstand

Semantische zwaartekracht

Het probleem met gehele getallen: tokens versus getallen

Waarom hallucinaties er zo overtuigend uitzien

Gerelateerde tags

Deel

Laatste inzichten

Voor entertainmentervaringen van de volgende generatie zijn LLM’s slechts zo goed als de gegevens waartoe ze toegang hebben

AI kan content verbeteren, maar niet als mensen er geen vertrouwen in hebben

Tv-zoekfuncties en -ontdekking in het tijdperk van de kunstmatige intelligentie

Neem contact op

Bedankt voor uw bericht!