Allucinazioni: quali sono i rischi?

Intelligenza artificiale Scoperta dei contenuti

Con la crescente diffusione e l'uso sempre più diffuso dell'intelligenza artificiale (IA), aumenta anche la consapevolezza del suo potenziale di presentare affermazioni errate come se fossero fatti reali. Queste «allucinazioni», ovvero informazioni che sembrano plausibili ma sono in realtà false, rappresentano un rischio noto associato all'uso dell'IA, ma molti non sono consapevoli di quanto possano essere gravi. Quando le persone non comprendono i rischi associati alle allucinazioni, non sono in grado di valutarne le implicazioni.

Nel settore dei media, i modelli linguistici di grandi dimensioni (LLM), una tipologia di IA generativa addestrata a comprendere e generare il linguaggio umano, diventeranno i motori di riferimento per offrire esperienze di intrattenimento di nuova generazione. Il successo in questo ambito, tuttavia, dipende dal supporto degli LLM con fonti di dati esterne affidabili, al fine di garantire risultati accurati, aggiornati e pertinenti. Questo processo è denominato «grounding».

Perché i modelli di linguaggio di grandi dimensioni (LLM) generano informazioni errate

È importante sottolineare che i modelli di linguaggio di grandi dimensioni (LLM) non sono banche dati e non memorizzano dati nel senso tradizionale del termine. Si tratta infatti di matrici di probabilità addestrate su insiemi di dati esaustivi, ma finiti. Di conseguenza, essi sintetizzano le risposte anziché recuperare ed esporre fatti. In pratica, il compito principale degli LLM è quello di prevedere la parte di testo più probabile (ad esempio, un token) in un modello statisticamente determinato. Se la parola successiva linguisticamente più plausibile in una sequenza risulta essere errata, l'LLM la fornirà comunque perché si adatta al modello.

Pertanto, la natura essenzialmente probabilistica della tecnologia stessa è la causa principale delle allucinazioni, ma questa vulnerabilità tecnologica è aggravata dai dati su cui vengono addestrati i modelli. I modelli sono particolarmente inclini alle allucinazioni quando vengono sollecitati a rispondere a domande su argomenti per i quali i dati nel loro set di addestramento sono scarsi o inesistenti, oppure quando i dati di addestramento rilevanti sono in conflitto tra loro. Ciò è particolarmente evidente nei casi d'uso dei media, dove vengono poste domande su uscite recenti, eventi recenti (come gli ultimi Oscar) e titoli meno noti o di nicchia.

Internet ha una buona parte di responsabilità in questo senso, poiché funge da fonte primaria di dati per l'addestramento dei modelli di linguaggio di grandi dimensioni (LLM). Ancorare un LLM a dati reali e verificati è la principale difesa contro le allucinazioni. I metodi di ancoraggio variano, così come le fonti di dati a cui attingono. Di conseguenza, l'affidabilità di ogni singolo LLM dipende esclusivamente dai dati a cui può accedere. A partire dal 2026, nessun LLM è esente da allucinazioni e, data la natura della tecnologia, è improbabile che questa realtà cambi nel breve termine. Il grounding, in realtà, è l'unico approccio praticabile per mitigare le allucinazioni.

I modelli di linguaggio di grandi dimensioni (LLM) nel settore dell'intrattenimento

Con la diffusione e l'utilizzo sempre più capillari dell'intelligenza artificiale, i fornitori di servizi di intrattenimento cercano di migliorare l'esperienza dei contenuti offerti ai propri clienti. In questo ambito, l'intelligenza artificiale offre vantaggi significativi rispetto alle tradizionali tecnologie di database e ricerca. Potenti funzionalità di classificazione e ordinamento, consigli iper-personalizzati, armonizzazione dei cataloghi di contenuti e ricerca conversazionale sono tra i principali vantaggi che i modelli di linguaggio di grandi dimensioni (LLM) sono in grado di offrire.

I metadati sono alla base del successo di qualsiasi modello di linguaggio di grandi dimensioni (LLM) chiamato a rivoluzionare il modo in cui le persone fruiscono dei contenuti. Mentre il consumatore può vedere solo 10 o 20 attributi di metadati relativi a un determinato film o programma televisivo, i servizi di streaming e gli studi cinematografici spesso registrano centinaia, se non migliaia, di dati per ogni singolo titolo.

È importante sottolineare che il livello di rischio di allucinazioni non è uniforme per tutti gli attributi dei metadati. Alcuni attributi, come il tipo di contenuto e il genere, presentano un rischio molto basso di allucinazioni, poiché i modelli di linguaggio di grandi dimensioni (LLM) danno il meglio di sé quando le risposte probabilistiche si concentrano sulla logica strutturata e sulla mappatura categoriale.

Quando gli attributi dei metadati sono altamente specifici, tuttavia, il rischio di allucinazioni aumenta in modo significativo. Gli ID dei contenuti e gli attributi matematici, ad esempio, comportano un rischio di allucinazioni molto elevato. In questi casi, gli LLM "indovineranno" con sicurezza un numero che ritengono plausibile, ma che in realtà è sbagliato. Ad esempio, i numeri vengono spesso suddivisi in sottotoken. Quindi, un LLM potrebbe vedere il numero 154 come 15 e 4. Durante la costruzione di questi, la "matematica" spesso si interrompe, portando a errori "off-by-one".

I numeri delle stagioni e degli episodi rappresentano una sfida particolare a causa del modo in cui funzionano i modelli di linguaggio di grandi dimensioni (LLM). Ad esempio, se un LLM ha analizzato 1.000 episodi dei Simpson, sa che esiste un episodio 5 della stagione 10. Se uno spettatore chiede informazioni su una serie di nicchia con soli sei episodi, il modello potrebbe comunque tendere a indicare un numero più alto, poiché la maggior parte delle serie su cui è stato addestrato ha stagioni più lunghe.

Valutazione del rischio di allucinazioni in base agli attributi dei metadati

Data l'ampia gamma di attributi dei metadati esistenti, non tutti sono universalmente soggetti ad allucinazioni.

Il rischio di "allucinazioni" riguardo al regista, ad esempio, è diverso nelle grandi produzioni dei major rispetto ai piccoli film indipendenti. In questi casi, una confusione nei crediti potrebbe indurre un modello LLM a "allucinare" un produttore o un famoso regista contemporaneo come se fosse il regista.

Analizziamo il rischio di allucinazioni in relazione a specifici tipi di contenuto e attributi dei metadati.

Caratteristiche generali

Attributo	Rischio di allucinazioni	Ragionamento
Gracenote (o qualsiasi altro identificatore)	Critico	Stringhe non semantiche: gli ID non hanno alcun significato semantico per un modello linguistico, quindi i modelli di linguaggio di grandi dimensioni (LLM) si limiteranno a generare una stringa che assomiglia agli identificatori che hanno già visto in precedenza. Gli LLM non forniranno il TMSID corretto per nessun titolo che non figuri tra gli identificatori occasionalmente riportati nella documentazione pubblica Gracenote.
Tipo	Molto basso	Logica strutturale: i modelli di solito capiscono se si tratta di un film o di una serie televisiva in base al contesto. È raro che scambino un «film» per un «episodio» se viene fornito il titolo. Tuttavia, i modelli tendono a confondere serie televisive e film con lo stesso titolo, specialmente se hanno un attore in comune.
Attori	Basso	Distorsione associativa: i modelli di linguaggio di grandi dimensioni (LLM) offrono un’elevata precisione per i nomi più noti, ma possono attribuire erroneamente a un attore la partecipazione a un progetto in cui non ha mai recitato, semplicemente perché lavora spesso con quel regista o in un genere affine.
Genere	Basso	Mappatura per categorie: in linea di principio, esiste un elenco finito di generi. I modelli di linguaggio di grandi dimensioni (LLM) sono generalmente in grado di classificare «The Batman» come «azione/poliziesco», anche se potrebbero non riconoscere alcuni sottogeneri e le loro risposte non corrisponderanno a una tassonomia standard.
Descrizione	Basso	Capacità generativa: i modelli di linguaggio di grandi dimensioni (LLM) sono generalmente in grado di sintetizzare un riassunto plausibile. Si tratta di dati “approssimativi”, in cui il concetto di “accuratezza” è soggettivo. Ciò presuppone, tuttavia, che i modelli non confondano o mescolino titoli con lo stesso nome. La descrizione non rispetterà gli standard editoriali (ad esempio, nessun spoiler) a meno che non vengano specificatamente richieste delle regole.
Immagini	Critico	Mancanza di verifica dei diritti: i modelli di linguaggio di grandi dimensioni (LLM) non sono in grado di verificare se l'URL di un'immagine sia attivo o pertinente. Spesso generano risultati errati, e le immagini che riescono a visualizzare correttamente risulteranno senza tipo, con diritti d'uso sconosciuti.
Durata	Medio	Ritorno alla media: i modelli di linguaggio di grandi dimensioni (LLM) tendono a stimare durate standard (22 min, 44 min, 90 min, 120 min) anziché la durata effettiva, precisa al singolo frame.

Caratteristiche del film

Attributo	Rischio di allucinazioni	Ragionamento
Anno	Medio	Nota storica: gli anni di uscita dei film costituiscono dei «punti di riferimento» nei dati di addestramento dei modelli LLM. Il rischio aumenta nel caso di film indipendenti poco conosciuti e di progetti mai distribuiti. Tuttavia, Gracenote ha dimostrato che non è raro che gli anni di uscita vengano erroneamente riportati con uno scarto di un anno.
Direttore	Medio	Confusione nei crediti: i modelli di linguaggio di grandi dimensioni (LLM) tendono meno a attribuire erroneamente il ruolo di regista a personaggi famosi nei film di grande successo. Nel caso di film minori, invece, gli LLM potrebbero attribuire erroneamente il ruolo di regista al produttore o a un personaggio contemporaneo più famoso.

Caratteristiche del programma televisivo

Attributo	Rischio di allucinazioni	Ragionamento
Intervallo di anni	Medio	Drift: i modelli di linguaggio di grandi dimensioni (LLM) riportano solitamente l'anno di inizio in modo corretto, ma tendono a fornire un'informazione errata riguardo all'anno di fine se la serie è stata cancellata o rinnovata dopo la data di chiusura dell'addestramento del modello, qualora la serie continui.
Autore	Medio	Confusione sui ruoli: i modelli di linguaggio di grandi dimensioni (LLM) spesso hanno difficoltà a distinguere i ruoli specifici all’interno di una produzione. Potrebbero sapere che «Vince Gilligan ha creato Breaking Bad», ma spesso commettono errori nel definire il rapporto tra le persone e il loro coinvolgimento in una determinata opera.
Numero di stagioni	Alto	Limite temporale delle conoscenze: una serie che oggi conta cinque stagioni potrebbe averne avute solo tre al momento dell'addestramento del modello. Di conseguenza, il modello di linguaggio di grandi dimensioni (LLM) riporterà il numero precedente come «dato di fatto». In generale, gli LLM non sono affidabili per quanto riguarda i numeri interi, poiché questi non vengono «memorizzati» come dati di fatto, ma vengono piuttosto previsti sulla base di dati simili.

Caratteristiche degli episodi e delle stagioni televisive

Attributo	Rischio di allucinazioni	Ragionamento
Titolo dell'episodio	Alto	Inferenza semantica: per gli episodi famosi (ad esempio, «Le piogge di Castamere»), l’accuratezza è elevata. Per gli episodi generici, i modelli di linguaggio di grandi dimensioni (LLM) generano un titolo che «sembra» appartenere a quella serie (ad esempio, inventando un episodio di Friends intitolato «Quello del caffè»).
Numero della stagione	Alto	Probabilità predittiva: i modelli di linguaggio di grandi dimensioni (LLM) considerano i numeri delle stagioni come «sequenze probabili». Se una serie è di lunga durata, il modello potrebbe indovinare la quarta stagione invece della quinta, poiché entrambe risultano ugualmente «probabili» in base ai suoi pesi.
Numero dell'episodio	Alto	Mancanza di indicizzazione: senza un punto di riferimento, il modello LLM si limita a indovinare la posizione di un episodio. Spesso commette errori del tipo «off-by-one».
Data di prima messa in onda	Alto	Corrispondenza dei modelli: i modelli di linguaggio di grandi dimensioni (LLM) potrebbero sapere che una serie televisiva andava in onda «il giovedì nel 2014» e generare una data plausibile per un giovedì che, però, non corrisponde alla realtà.
Direttore	Alto	Diluzione dei crediti: i registi degli episodi cambiano continuamente. A meno che un episodio non abbia un famoso «regista ospite» (ad esempio, Tarantino alla regia di CSI), i modelli di linguaggio di grandi dimensioni (LLM) tenderanno in genere a individuare lo showrunner o un regista che lavora spesso alla serie.

Il percorso matematico di minor resistenza

I modelli di linguaggio di grandi dimensioni (LLM) sono addestrati per ridurre al minimo la "perdita", il che significa che mirano a essere il più "corretti" possibile, in base ai dati utilizzati per il loro addestramento. In un set di dati di grandi dimensioni, alcuni schemi ricorrono più spesso di altri.

Per quanto riguarda gli anni di uscita: nei dati di addestramento, la stringa «Star Wars» è seguita da «1977» milioni di volte. La probabilità che «1977» segua «Star Wars» è quasi del 100%.

Per quanto riguarda le stagioni e gli episodi, nei dati di addestramento la dicitura «stagione 1» per una serie di medio successo compare molto più spesso rispetto a «stagione 7». Se il modello di linguaggio di grandi dimensioni (LLM) non è sicuro dei fatti, ricorrerà per impostazione predefinita allo schema più frequente nei propri dati di addestramento, che solitamente contiene numeri più bassi (1, 2 o 3).

Gravità semantica

Le “sequenze probabili” dipendono anche dallo stile del contenuto. Ecco perché i titoli degli episodi sono così soggetti a errori. Se chiedi a un modello di linguaggio di grandi dimensioni (LLM) di citare un episodio di Friends, esso conosce lo schema: “Quello con…”

La verità è che non esiste nessun episodio intitolato «Quello dell'eclissi solare».
L'illusione: poiché "Quello con..." è un prefisso molto frequente e "Eclissi solare" è un espediente televisivo comune (che segnala al pubblico che "le cose stanno per diventare strane"), il modello di linguaggio di grandi dimensioni (LLM) li combina in una "sequenza plausibile". La risposta sembra autentica al 100% perché segue le regole semantiche dei titoli degli episodi di Friends, anche se dal punto di vista fattuale è errata.

Il problema dei numeri interi: token contro numeri

I modelli di linguaggio di grandi dimensioni (LLM) non “contano” come fanno gli esseri umani. Considerano i numeri come frammenti, quindi il numero 154 potrebbe essere elaborato come due token: 15 e 4.

Quando un modello LLM non addestrato su dati concreti deve prevedere il numero di un episodio, non consulta un database. Si chiede piuttosto: «In una sequenza di numeri che segue il titolo di questa serie, quale cifra viene solitamente dopo?»

Se i dati di addestramento indicano che la serie conta circa 20 episodi per stagione e il modello di linguaggio di grandi dimensioni (LLM) ha già generato la «stagione 2», statisticamente tenderà a privilegiare qualsiasi numero compreso tra 1 e 20. La scelta specifica tra «12» e «13» è spesso una questione di fortuna, dovuta al «rumore» presente nel modello, e si potrebbero ottenere risposte diverse a uno stesso prompt.

Perché le allucinazioni sembrano così convincenti

Un modello LLM non prevede lo stato "Non so" a meno che non sia stato specificatamente ottimizzato per questo. Di solito, entra in una "sequenza probabile" e genera token con un elevato livello di affidabilità matematica, una "mappa di probabilità". Ecco un esempio di mappa di probabilità relativa ai nomi dei registi:

Domanda: Il regista del film Titanic (1997) è…

Probabilità dei prossimi gettoni:

James: 99,2%
Steven: 0,3%
George: 0,1%

Il risultato prevedibile, vista la forte associazione che si crea tra James Cameron e il film Titanic.

Risposta: Il regista dell'episodio televisivo «The Fly» è…

Probabilità dei prossimi gettoni:

Vince (showrunner di Breaking Bad): 45%
Rian (Regista effettivo, Breaking Bad, Stagione 3, Episodio 10): 30%
Michelle (regista abituale): 20%

In questo secondo esempio, il modello di linguaggio grande (LLM) sceglierà Vince (Gilligan) perché è più “probabile” che sia associato al testo complessivo della serie, anche se non ha diretto quell’episodio specifico. Poiché il materiale scritto relativo a questo episodio è minore (rispetto all’esempio del Titanic ), la scarsa quantità di dati di addestramento fa sì che la mappa di probabilità sia più incline a produrre una risposta errata.

Allucinazioni: quali sono i rischi?

Perché i modelli di linguaggio di grandi dimensioni (LLM) generano informazioni errate

I modelli di linguaggio di grandi dimensioni (LLM) nel settore dell'intrattenimento

Valutazione del rischio di allucinazioni in base agli attributi dei metadati

Caratteristiche generali

Caratteristiche del film

Caratteristiche del programma televisivo

Caratteristiche degli episodi e delle stagioni televisive

Il percorso matematico di minor resistenza

Gravità semantica

Il problema dei numeri interi: token contro numeri

Perché le allucinazioni sembrano così convincenti

Tag correlati

Condividi

Ultime approfondimenti

Per quanto riguarda le esperienze di intrattenimento di nuova generazione, la qualità dei modelli di linguaggio di grandi dimensioni (LLM) dipende interamente dai dati a cui hanno accesso

L'intelligenza artificiale può migliorare la scoperta dei contenuti, ma non se le persone non si fidano di essa

Ricerca e scoperta di contenuti televisivi nell'era dell'intelligenza artificiale

Contattaci

Grazie per averci contattato!