Alucinaciones: ¿qué riesgos entrañan?

Inteligencia artificial Descubrimiento de contenido

A medida que crece la adopción y el uso de la inteligencia artificial (IA), también aumenta la conciencia sobre su potencial para presentar afirmaciones erróneas como si fueran hechos. Estas «alucinaciones», es decir, información que parece verosímil pero que es falsa, constituyen un riesgo conocido asociado al uso de la IA, pero muchos no son conscientes de lo graves que pueden llegar a ser. Cuando las personas no comprenden los riesgos asociados a las alucinaciones, no son capaces de evaluar sus implicaciones.

En el sector de los medios de comunicación, los grandes modelos de lenguaje (LLM), un tipo de IA generativa entrenada para comprender y generar lenguaje humano, se convertirán en los motores por defecto que ofrecerán experiencias de entretenimiento de última generación. Sin embargo, el éxito en este ámbito depende de que los LLM cuenten con el respaldo de fuentes de datos externas fiables, a fin de garantizar la obtención de resultados precisos, actuales y relevantes. Este proceso se denomina «grounding».

¿Por qué los modelos de lenguaje grande (LLM) producen alucinaciones?

Es importante destacar que los LLM no son bases de datos y no almacenan datos en el sentido tradicional. Son matrices de probabilidad entrenadas con datos exhaustivos, pero finitos. Como resultado, sintetizan respuestas en lugar de recuperar y expresar hechos. En la práctica, la función principal de los LLM es predecir el fragmento de texto más probable (por ejemplo, un token) dentro de un patrón estadísticamente determinado. Si la siguiente palabra más plausible desde el punto de vista lingüístico en una secuencia resulta ser incorrecta, el LLM la ofrecerá de todos modos porque se ajusta al patrón.

Por lo tanto, la naturaleza esencialmente probabilística de la propia tecnología es la principal fuente de alucinaciones, pero esta vulnerabilidad tecnológica se ve agravada por los datos con los que se entrenan los modelos. Los modelos son especialmente propensos a las alucinaciones cuando se les pide que respondan a preguntas sobre temas para los que hay pocos o ningún dato en su conjunto de datos de entrenamiento, o cuando los datos de entrenamiento relevantes son contradictorios. Esto resulta especialmente evidente en los casos de uso de los medios de comunicación, donde se formulan preguntas sobre estrenos recientes, acontecimientos recientes (como la última entrega de los Premios de la Academia) y títulos menos conocidos o marginales.

Internet tiene gran parte de la culpa en este sentido, ya que sirve como principal fuente de datos para el entrenamiento de los modelos de lenguaje grande (LLM). Basar un LLM en datos del mundo real y verificados es la principal defensa contra las alucinaciones. Los métodos de «grounding» varían, al igual que las fuentes de datos a las que recurren. En consecuencia, la fiabilidad de cualquier LLM concreto depende exclusivamente de los datos a los que pueda acceder. En 2026, ningún LLM está libre de alucinaciones y, dada la naturaleza de la tecnología, es poco probable que esta realidad cambie a corto plazo. El «grounding», en realidad, es el único enfoque viable para mitigar las alucinaciones.

Los modelos de lenguaje grande (LLM) en el sector del entretenimiento

A medida que se generaliza la adopción y el uso de la IA, los proveedores de entretenimiento buscan mejorar la experiencia de contenido que ofrecen a sus clientes. En este sentido, la IA ofrece ventajas significativas con respecto a las tecnologías tradicionales de bases de datos y búsqueda. Entre las principales ventajas que pueden aportar los modelos de lenguaje grande (LLM) se encuentran potentes capacidades de clasificación y ordenación, recomendaciones hiperpersonalizadas, la armonización de catálogos de contenido y la búsqueda conversacional.

Los metadatos son la base del éxito de cualquier modelo de lenguaje grande (LLM) destinado a revolucionar la forma en que las personas disfrutan de los contenidos. Aunque el consumidor solo vea 10 o 20 atributos de metadatos de una película o serie concreta, los servicios de streaming y los estudios suelen recopilar cientos —incluso miles— de datos sobre cada título.

Es importante destacar que el grado de riesgo de alucinaciones no es el mismo en todos los atributos de metadatos. Algunos atributos, como el tipo de contenido y el género, presentan un riesgo muy bajo de alucinaciones, ya que los modelos de lenguaje grande (LLM) destacan cuando las respuestas probabilísticas se centran en la lógica estructurada y la clasificación categórica.

Sin embargo, cuando los atributos de los metadatos son muy específicos, el riesgo de alucinación aumenta considerablemente. Los identificadores de contenido y los atributos matemáticos, por ejemplo, conllevan un riesgo de alucinación muy elevado. En estos casos, los LLM «adivinarán» con seguridad un número que consideran plausible, pero que en realidad es erróneo. Por ejemplo, los números suelen dividirse en subtókenes. Así, un LLM podría ver el número 154 como 15 y 4. Al construir estos, la «matemática» a menudo falla, lo que conduce a errores de «desviación de uno».

Los números de temporada y episodio suponen un reto especial debido al funcionamiento de los modelos de lenguaje grande (LLM). Por ejemplo, si un LLM ha visto 1.000 episodios de Los Simpson, sabe que existe un episodio 5 de la temporada 10. Si un espectador pregunta por una serie poco conocida con solo seis episodios, es posible que el modelo siga inclinándose por un número más alto, ya que la mayoría de las series con las que se ha entrenado tienen temporadas más largas.

Evaluación del riesgo de alucinaciones mediante atributos de metadatos

Dada la amplia variedad de atributos de metadatos que existen, no todos son susceptibles de sufrir alucinaciones de forma generalizada.

El riesgo de que se produzcan alucinaciones sobre un director, por ejemplo, es diferente en las grandes producciones de los estudios que en las películas independientes de menor presupuesto. En este caso, la confusión en los créditos podría llevar a un modelo de lenguaje grande (LLM) a «alucinar» y atribuir la dirección a un productor o a un cineasta famoso de la actualidad.

Analicemos el riesgo de alucinaciones en distintos tipos de contenido y atributos de metadatos.

Atributos generales

Atributo	Riesgo de alucinaciones	Razonamiento
Gracenote (o cualquier identificador)	Crítico	Cadenas no semánticas: los identificadores no tienen sentido semántico para un modelo de lenguaje, por lo que los modelos de lenguaje grande (LLM) se limitarán a inventar una cadena que se parezca a los identificadores que hayan visto anteriormente. Los LLM no indicarán el TMSID correcto para ningún título que no figure entre los identificadores ocasionales que aparecen en la documentación pública Gracenote.
Tipo	Muy bajo	Lógica estructural: los modelos suelen saber si se refieren a una película o a una serie basándose en el contexto. Es poco habitual que confundan una «película» con un «episodio» si se les proporciona el título. Sin embargo, los modelos tienden a confundir series y películas con el mismo título, sobre todo si comparten algún miembro del reparto.
Actores	Bajo	Sesgo de asociación: los modelos de lenguaje grande (LLM) ofrecen una gran precisión en el caso de los nombres más destacados, pero pueden «inventarse» que un actor ha participado en un proyecto en el que nunca ha estado, simplemente porque suele trabajar con ese director o en un género relacionado.
Género	Bajo	Clasificación por categorías: En principio, existe una lista finita de géneros. Los modelos de lenguaje grande (LLM) suelen ser eficaces a la hora de clasificar «The Batman» como «acción/crimen», aunque pueden pasar por alto algunos subgéneros, y sus respuestas no se ajustarán a una taxonomía estándar.
Descripción	Bajo	Capacidad generativa: por lo general, los modelos de lenguaje grande (LLM) pueden elaborar un resumen plausible. Se trata de datos «imprecisos», en los que la «precisión» es subjetiva. Sin embargo, esto supone que los LLM no confunden ni mezclan títulos con el mismo nombre. La descripción no cumplirá con las normas editoriales (por ejemplo, no incluirá spoilers) a menos que se soliciten específicamente dichas normas.
Imágenes	Crítico	Sin verificación de derechos: los modelos de lenguaje grande (LLM) no pueden comprobar si la URL de una imagen está activa o es relevante. A menudo generarán una ruta probable, y las imágenes que se carguen correctamente no tendrán tipo definido, por lo que se desconocerán sus derechos de uso.
Duración	Medio	Regreso a la media: los modelos de lenguaje grande (LLM) tienden a estimar duraciones estándar (22 m, 44 m, 90 m, 120 m) en lugar de la duración específica con precisión de fotogramas.

Características de la película

Atributo	Riesgo de alucinaciones	Razonamiento
Año	Medio	Nota histórica: Los años de estreno de las películas son «datos de referencia» en los conjuntos de datos de entrenamiento de los modelos de lenguaje grande (LLM). El riesgo aumenta en el caso de películas independientes poco conocidas y proyectos aún no estrenados. Sin embargo, Gracenote han demostrado que no es raro que los años de estreno se calculen con un error de un año.
Director	Medio	Confusión en los créditos: los modelos de lenguaje grande (LLM) tienden menos a «alucinar» con los directores de películas famosas. En el caso de películas menos conocidas, los LLM pueden «alucinar» con el productor o con una figura contemporánea más famosa, asignándoles el papel de director.

Características de la serie de televisión

Atributo	Riesgo de alucinaciones	Razonamiento
Intervalo de años	Medio	Errores: Los modelos de lenguaje grande suelen indicar correctamente el año de inicio, pero pueden dar un resultado erróneo sobre el año de finalización si la serie se canceló o se renovó después de la fecha límite de entrenamiento del modelo, siempre que la serie continúe.
Creador	Medio	Confusión de roles: los modelos de lenguaje grande (LLM) suelen tener dificultades para distinguir los roles específicos en una producción. Puede que sepan que «Vince Gilligan creó Breaking Bad», pero suelen confundir la relación entre las personas y su participación en una obra concreta.
Número de temporadas	Alto	Limitación de los conocimientos: una serie que hoy cuenta con cinco temporadas podría haber tenido solo tres cuando se entrenó el modelo. Por lo tanto, el LLM indicará la cifra anterior como «hecho». En general, los LLM no son fiables en lo que respecta a los números enteros, ya que estos no se «almacenan» como hechos. Más bien, se predicen basándose en datos similares.

Atributos de los episodios y temporadas de series de televisión

Atributo	Riesgo de alucinaciones	Razonamiento
Título del episodio	Alto	Adivinación semántica: en el caso de episodios famosos (por ejemplo, «Las lluvias de Castamere»), la precisión es alta. En cuanto a los episodios genéricos, los modelos de lenguaje grande (LLM) inventarán un título que «parezca» propio de esa serie (por ejemplo, inventando un episodio de Friends titulado «El del café»).
Número de temporada	Alto	Probabilidad predictiva: los modelos de lenguaje grande (LLM) tratan los números de temporada como «secuencias probables». Si una serie lleva mucho tiempo en emisión, es posible que el modelo prediga la temporada 4 en lugar de la temporada 5, ya que ambas son igualmente «probables» según sus ponderaciones.
Número de episodio	Alto	Falta de indexación: sin una referencia, el modelo de lenguaje grande (LLM) se limita a adivinar la posición de un episodio. A menudo comete errores de «desviación de uno».
Fecha de emisión original	Alto	Coincidencia de patrones: los modelos de lenguaje grande (LLM) pueden saber que un programa se emitió «los jueves de 2014» y «alucinar» una fecha de jueves que parezca plausible, pero que en realidad sea incorrecta.
Director	Alto	Dilución de créditos: los directores de los episodios cambian constantemente. A menos que un episodio cuente con un «director invitado» famoso (por ejemplo, Tarantino dirigiendo CSI), los modelos de lenguaje grande suelen adivinar quién es el showrunner o un director habitual de la serie.

La vía matemática de menor resistencia

Los modelos de lenguaje grande (LLM) están entrenados para minimizar la «pérdida», lo que significa que buscan ser lo más «correctos» posible, según sus datos de entrenamiento. En un conjunto de datos masivo, ciertos patrones aparecen con más frecuencia que otros.

En cuanto a los años de estreno: en los datos de entrenamiento, la cadena «Star Wars» va seguida de «1977» millones de veces. La probabilidad de que «1977» siga a «Star Wars» es casi del 100 %.

En cuanto a temporadas y episodios, la «temporada 1» de una serie de nivel medio aparece en los datos de entrenamiento con mucha más frecuencia que la «temporada 7». Si el modelo de lenguaje grande (LLM) no está seguro de los datos, recurrirá por defecto al patrón más frecuente en sus datos de entrenamiento, que suelen contener números más bajos (1, 2 o 3).

Gravedad semántica

Las «secuencias probables» también dependen del estilo del contenido. Por eso los títulos de los episodios son tan propensos a dar lugar a alucinaciones. Si le pides a un modelo de lenguaje grande (LLM) que nombre un episodio de Friends, conoce el patrón: «El de…».

La realidad: no hay ningún episodio titulado «El del eclipse solar».
La alucinación: dado que «El episodio en el que...» es un prefijo muy probable y «Eclipse solar» es un recurso habitual en la televisión (que indica al público que «las cosas están a punto de ponerse raras»), el modelo de lenguaje grande (LLM) los combina para formar una «secuencia probable». La respuesta suena 100 % auténtica porque sigue las reglas semánticas de los títulos de los episodios de Friends, aunque sea incorrecta desde el punto de vista factual.

El problema de los números enteros: tokens frente a números

Los modelos de lenguaje grande (LLM) no «cuentan» como lo hacemos los humanos. Ven los números como fragmentos, por lo que el número 154 podría procesarse como dos tokens: 15 y 4.

Cuando un modelo de lenguaje grande (LLM) sin entrenamiento predice el número de un episodio, no consulta una base de datos. Lo que hace es preguntarse: «En una secuencia de números que sigue al título de esta serie, ¿qué dígito suele aparecer a continuación?».

Si los datos de entrenamiento indican que la serie tiene aproximadamente 20 episodios por temporada y el modelo de lenguaje grande (LLM) ya ha generado «temporada 2», estadísticamente se inclinará por cualquier número entre 1 y 20. La elección concreta entre «12» y «13» suele ser una cuestión de azar debido al «ruido» del modelo, y es posible que se obtengan respuestas diferentes para la misma solicitud.

¿Por qué las alucinaciones parecen tan convincentes?

Un modelo de lenguaje grande (LLM) no tiene un estado de «no sé» a menos que se haya configurado específicamente para ello. Lo más habitual es que entre en una «secuencia probable» y genere tokens con un alto nivel de confianza matemática, lo que se conoce como «mapa de probabilidades». A continuación se muestra un ejemplo de mapa de probabilidades en relación con los nombres de directores:

Pregunta: El director de la película Titanic (1997) es…

Probabilidades de la siguiente ficha:

James: 99,2 %
Steven: 0,3 %
George: 0,1 %

El resultado esperado, dada la abrumadora asociación que se establece por escrito entre James Cameron y la película Titanic.

Pregunta: El director del episodio de televisión «La mosca» es…

Probabilidades de la siguiente ficha:

Vince (showrunner de Breaking Bad): 45 %
Rian (director de «Breaking Bad», temporada 3, episodio 10): 30 %
Michelle (directora habitual): 20 %

En este segundo ejemplo, el modelo de lenguaje grande (LLM) elegirá a Vince (Gilligan) porque es más «probable» que se le asocie con el texto general de la serie, aunque no dirigiera ese episodio concreto. Dado que hay menos material escrito relacionado con este episodio (en comparación con el ejemplo del Titanic ), la escasa cantidad de datos de entrenamiento hace que sea más probable que el mapa de probabilidades genere una respuesta incorrecta.

Alucinaciones: ¿qué riesgos entrañan?

¿Por qué los modelos de lenguaje grande (LLM) producen alucinaciones?

Los modelos de lenguaje grande (LLM) en el sector del entretenimiento

Evaluación del riesgo de alucinaciones mediante atributos de metadatos

Atributos generales

Características de la película

Características de la serie de televisión

Atributos de los episodios y temporadas de series de televisión

La vía matemática de menor resistencia

Gravedad semántica

El problema de los números enteros: tokens frente a números

¿Por qué las alucinaciones parecen tan convincentes?

Etiquetas relacionadas

Compartir

Últimas novedades

Para las experiencias de entretenimiento de última generación, los modelos de lenguaje grande (LLM) son tan buenos como los datos a los que pueden acceder

La IA puede mejorar la búsqueda de contenidos, pero no si la gente no confía en ella

La búsqueda y el descubrimiento de contenidos televisivos en la era de la IA

Póngase en contacto

Gracias por ponerse en contacto con nosotros.