Pourquoi les grands modèles linguistiques non ancrés ne peuvent pas résoudre le problème de la découverte de contenu

Intelligence artificielle Découverte de contenu

Imaginez la scène : c'est la fin d'une longue journée et vous vous affalez sur le canapé de votre salon pour vous plonger dans l'univers du streaming vous évader du monde réel. Au lieu de faire défiler une liste interminable de vignettes de programmes, vous demandez à votre télécommande à commande vocale de vous trouver ce « thriller policier tendu et au rythme lent, qui se déroule dans une petite ville pluvieuse et qui vient tout juste de sortir ».

C’est là toute la beauté de l’IA générative : la découverte de contenus concrets et interactifs. L’inconvénient, cependant, est que les grands modèles linguistiques (^LLM¹) déployés en entreprise ne sont pas capables de répondre aux questions de la même manière que les chatbots populaires tels que Gemini et ChatGPT. En effet, ils ne disposent d’aucune connaissance en dehors de leurs données d’entraînement initiales.

Dans l’exemple ci-dessus, les informations concernant un nouveau film ne figureront pas dans les données d’entraînement d’un LLM non ancré. Ainsi, au lieu de vous proposer une perle rare, l’assistant alimenté par l’IA inventera avec assurance un scénario, combinera des éléments de deux films aux titres similaires ou vous recommandera un film dont votre service ne détient même pas les droits de diffusion.

Quand « assez bien » ne suffit en réalité pas

Dans le domaine de l’IA, les réponses imparfaites sont un effet secondaire bien connu d’une technologie qui fonctionne sur la base de probabilités. Les chatbots les plus populaires bénéficient toutefois d’un ancrage dans des sources de données externes fiables (ce qu’on appelle le « grounding ») pour étayer leurs réponses. C’est pas le cas des grands modèles de langage (LLM) d’entreprise. Ils ne connaissent que ce avec quoi ils ont été entraînés. Par conséquent, ils ne savent souvent pas comment répondre, ou bien ils inventent tout simplement des réponses (ce qu’on appelle « halluciner »).

Par exemple, une récente Gracenote a révélé que les LLM non entraînés sur des données réelles ont du mal à fournir la moindre information sur les films sortis au cours des deux dernières années, quels que soient leurs résultats au box-office et la couverture médiatique dont ils ont fait l’objet dans les magazines de divertissement populaires. Citons notamment « GOAT », « Mercy », « Send Help », « Solo Mio » et « It Was Just an Accident ».

Cependant, ce n’est pas parce qu’un LLM ne dispose pas de la bonne réponse qu’il va pour autant admettre qu’il ne sait pas. Dans notre étude, qui portait sur 2 600 séries télévisées et films parmi les plus populaires dans 13 pays, un LLM non ancré a généré de fausses informations dans 100 % des réponses concernant 506 de ces titres (soit 20 % des titres étudiés).

Pour obtenir des résultats de qualité, tout réside dans les détails

Pour mettre les spectateurs en relation avec ce qu’ils souhaitent regarder, les modèles de langage de grande envergure (LLM) ont besoin de bien plus que des informations en temps réel et de la capacité à faire correspondre des attributs de métadonnées. Pour répondre aux attentes croissantes des clients à mesure que l’utilisation de l’IA se développe, il faudra que les services soient capables de fournir des informations complètes sur les milliers de titres présents dans chaque catalogue vidéo. Or, les LLM non ancrés ne sont pas à la hauteur de cette tâche.

Afin d'évaluer les performances globales du LLM non ancré, nous avons attribué des notes de qualité aux résultats complets fournis pour l'ensemble des 2 600 titres. Ces notes (qualité nulle, faible, moyenne et élevée) reflètent la combinaison de deux évaluations distinctes : la correspondance des attributs des métadonnées avec les données d'ancrage et l'exactitude factuelle des réponses.

Sur l'ensemble des 2 600 titres, la proportion cumulée des résultats de qualité nulle, faible ou moyenne était assez élevée, allant de 77 % à 91 %. Moins d'un tiers des résultats ont été jugés de haute qualité. Aux Pays-Bas et au Mexique, moins de 10 % ont été jugés de haute qualité.

Face à la fragmentation croissante des contenus et à la lassitude des abonnés, le succès dans le domaine du divertissement vidéo dépendra de plus en plus de l’expérience utilisateur. À cet égard, les modèles de langage de grande échelle (LLM) ont le pouvoir d’atténuer les frustrations grandissantes liées à la découverte de contenus — mais pas s’ils fournissent de mauvais résultats. Et bien trop souvent, en particulier dans les cas d’utilisation en entreprise, les LLM non ancrés dans la réalité ne fourniront pas les résultats fiables et en temps réel qui feront la différence à mesure que les catalogues s’étoffent et que la distribution devient encore plus décentralisée.

Pour en savoir plus, téléchargez notre récente étude sur les réponses non fondées des modèles LLM.

Note

Les LLM constituent un type d'IA générative qui est entraînée à partir d'énormes quantités de données afin de comprendre et de générer un langage similaire à celui des humains.

Pourquoi les grands modèles linguistiques non ancrés ne peuvent pas résoudre le problème de la découverte de contenu

Quand « assez bien » ne suffit en réalité pas

Pour obtenir des résultats de qualité, tout réside dans les détails

Note

Tags associés

Partager

Dernières informations

L'IA est-elle capable de trouver le bon épisode d'une série télévisée ? Pas de manière fiable.

Incohérences dans l'IA

Les contenus sportifs proposés par les plateformes mondiales de SVOD rivaliseront bientôt avec les catalogues de films

Prendre contact

Merci de nous avoir contactés !