Por qué los modelos de lenguaje a gran escala sin base no pueden resolver el problema del descubrimiento de contenidos

Inteligencia artificial Descubrimiento de contenido

Imagínate esto: es el final de un largo día y te dejas caer en el sofá del salón para sumergirte en el mundo del streaming como vía de escape de la realidad. En lugar de desplazarte por una interminable lista de programas, le pides a tu mando a distancia con control por voz que busque esa «película de suspense policíaco, tensa y de ritmo lento, ambientada en un pequeño pueblo lluvioso que acaba de estrenarse».

Esta es la belleza de la IA generativa: el descubrimiento de contenidos del mundo real a través de la conversación. Sin embargo, el inconveniente es que los grandes modelos de lenguaje (^LLM1) que se implementan para uso empresarial no están preparados para responder a preguntas de la misma forma que lo hacen los chatbots populares como Gemini y ChatGPT. Esto se debe a que no disponen de ningún conocimiento más allá de sus datos de entrenamiento iniciales.

En el ejemplo anterior, la información sobre una nueva película no formará parte de los datos de entrenamiento de un LLM sin contexto. Por lo tanto, en lugar de sugerirte una joya desconocida, el asistente basado en IA inventará con total seguridad un argumento, combinará elementos de dos películas que suenen similares o te recomendará una película de la que tu servicio ni siquiera tiene los derechos de distribución.

Cuando «lo suficientemente bueno» en realidad no lo es

En el mundo de la IA, las respuestas imperfectas son un efecto secundario bien conocido de una tecnología que responde basándose en probabilidades. Sin embargo, los chatbots más populares se benefician de estar vinculados a fuentes de datos externas fiables (por ejemplo, el «grounding») para respaldar sus respuestas. Esto es no el caso de los modelos de lenguaje grandes (LLM) empresariales. Estos solo saben lo que se les ha enseñado durante el entrenamiento. Como resultado, a menudo no saben cómo responder o, simplemente, se inventan cosas (por ejemplo, «alucinan»).

Por ejemplo, un Gracenote reciente Gracenote reveló que los modelos de lenguaje grande (LLM) sin datos de referencia tienen dificultades para proporcionar información sobre películas estrenadas en los últimos dos años, independientemente de los ingresos de taquilla y de la cobertura en publicaciones populares de entretenimiento. Entre los ejemplos se incluyen «GOAT», «Mercy», «Send Help», «Solo Mio» y «It Was Just an Accident».

Sin embargo, el hecho de que un modelo de lenguaje grande (LLM) no tenga la respuesta correcta no significa que vaya a admitir que no la sabe. En nuestro estudio, que incluyó 2.600 de las series de televisión y películas más populares de 13 países, un LLM sin datos de referencia inventó el 100 % de la información de las respuestas para 506 de los títulos (el 20 % de los títulos del estudio).

Para obtener resultados de calidad, la clave está en los datos

Para conectar a los espectadores con lo que desean ver, los modelos de lenguaje grande (LLM) necesitan algo más que información en tiempo real y la capacidad de cotejar atributos de metadatos. Satisfacer las crecientes expectativas de los clientes a medida que aumenta el uso de la IA dependerá de la capacidad de un servicio para proporcionar información exhaustiva sobre los miles de títulos que componen los catálogos de vídeo individuales. En este sentido, los LLM sin base no están a la altura de la tarea.

Para evaluar el rendimiento general del LLM sin referenciación, hemos asignado puntuaciones de calidad a los resultados completos proporcionados para los 2.600 títulos. Las puntuaciones (calidad nula, baja, media y alta) reflejan la combinación de dos evaluaciones independientes: la correspondencia de los atributos de los metadatos con los datos de referencia y la precisión factual de las respuestas.

Entre los 2.600 títulos analizados, el porcentaje acumulado de resultados de calidad nula, baja y media fue bastante elevado, oscilando entre el 77 % y el 91 %. Menos de un tercio de los resultados se consideraron de alta calidad. En los Países Bajos y México, menos del 10 % se consideraron de alta calidad.

En un contexto de creciente fragmentación de contenidos y «fatiga de las suscripciones», el éxito en el sector del entretenimiento en vídeo dependerá cada vez más de la experiencia del usuario. En este sentido, los modelos de lenguaje grande (LLM) tienen el potencial de aliviar las crecientes frustraciones relacionadas con la búsqueda de contenidos, pero no si ofrecen resultados deficientes. Y, con demasiada frecuencia, sobre todo en los casos de uso empresarial, los LLM sin una base sólida no van a ofrecer los resultados fiables y en tiempo real que marcarán la diferencia a medida que los catálogos crezcan y la distribución se vuelva aún más descentralizada.

Para obtener más información, descarga nuestro reciente estudio sobre las respuestas de los modelos de lenguaje grande (LLM) sin base.

Nota

Los modelos de lenguaje a gran escala (LLM) son un tipo de IA generativa que se entrena con enormes cantidades de datos para comprender y generar un lenguaje similar al humano.

Por qué los modelos de lenguaje a gran escala sin base no pueden resolver el problema del descubrimiento de contenidos

Cuando «lo suficientemente bueno» en realidad no lo es

Para obtener resultados de calidad, la clave está en los datos

Nota

Etiquetas relacionadas

Compartir

Últimas novedades

¿Puede la IA encontrar el episodio de serie adecuado? No de forma fiable.

Incoherencias en la IA

El contenido deportivo de los servicios globales de SVOD pronto rivalizará con los catálogos de películas

Póngase en contacto

Gracias por ponerse en contacto con nosotros.