こんな場面を想像してみてください。長い一日の終わりに、リビングのソファにぐったりと座り込み、現実世界からの逃避としてストリーミングの世界に没頭しようとしています。延々と続く番組リストをスクロールする代わりに、音声操作のリモコンに「雨の降る小さな町を舞台にした、緊張感あふれる、じわじわと盛り上がってくるばかりの、最近公開されたばかりの犯罪スリラー映画」を探してくれるよう頼むのです。
これこそが、生成AIの素晴らしさ、つまり会話形式による現実世界のコンテンツ発見です。しかし、その一方で、企業向けに導入されている大規模言語モデル(LLM1)には、GeminiやChatGPTのような人気チャットボットと同じように質問に答える機能が備わっていません。その理由は、初期の学習データ以外の知識を一切持っていないからです。

上記の例では、新作映画に関する情報は、基盤データを持たないLLMの学習データには含まれていません。そのため、AI搭載のアシスタントは、隠れた名作を提案する代わりに、自信満々にストーリーをでっち上げたり、似たようなタイトルの2本の映画の要素を組み合わせたり、あるいはあなたのサービスが配給権すら持っていない映画を推薦したりしてしまうでしょう。
AIの世界では、完璧とは言えない応答は、確率に基づいて応答する技術に伴う、よく知られた副産物です。しかし、人気のあるチャットボットは、応答を裏付けるために信頼性の高い外部データソース(いわゆる「グラウンディング」)と連携しているという利点があります。これは 企業向けLLMには 企業向けLLMの場合はそうではありません。それらは、学習データに含まれていることしか知りません。その結果、どう応答すべきか分からなかったり、単にでっち上げたり(いわゆる「幻覚」を起こしたり)することがよくあります。
例えば、Gracenote 最近Gracenote 、基礎知識が不足しているLLMは、興行収入や人気エンターテインメント誌での取り上げられ方にかかわらず、過去2年間に公開された映画に関する情報を提供することが困難であることが判明しました。その例としては、『GOAT』、『Mercy』、『Send Help』、『Solo Mio』、『It Was Just an Accident』などが挙げられます。

しかし、LLMが正しい答えを持っていないからといって、それが「知らない」と認めるわけではない。13カ国にわたる人気テレビ番組や映画2,600作品を対象とした我々の研究では、根拠のないLLMが、506作品(調査対象作品の20%)について、回答情報の100%をでっち上げていた。
視聴者を「見たい」と思うコンテンツと結びつけるためには、LLMにはリアルタイムの情報やメタデータ属性の照合機能以上のものが必要です。AIの利用が拡大する中で高まる顧客の期待に応えるためには、個々の動画カタログに含まれる数千ものタイトルに関する包括的な情報を提供できるかどうかが鍵となります。この点において、基盤データを持たないLLMではその役割を果たすことはできません。

グラウンディングされていないLLMの全体的な性能を評価するため、2,600件のタイトルすべてについて提供された回答結果に品質スコアを付与した。このスコア(「ゼロ」「低」「中」「高」の4段階)は、グラウンディングデータとのメタデータ属性の一致度と、回答の事実的正確性という2つの評価項目の組み合わせを反映している。
2,600件のタイトル全体において、「品質ゼロ」「低品質」「中品質」と評価された結果の合計割合はかなり高く、77%から91%の範囲に及んだ。高品質と評価された結果は3分の1未満であった。オランダとメキシコでは、高品質と評価された結果は10%未満であった。
コンテンツの断片化が進み、サブスクリプションへの倦怠感が高まる中、動画エンターテインメント分野での成功は、ますますユーザー体験にかかってくるでしょう。この点において、LLM(大規模言語モデル)は、コンテンツ発見に関する高まる不満を和らげる力を持っていますが、質の低い結果しか出せなければ意味がありません。そして、特に企業での活用事例において、根拠のないLLMでは、カタログが膨れ上がり、配信がさらに分散化していく中で、成功を左右する信頼性の高いリアルタイムの結果を提供することは、残念ながらほとんど期待できません。
さらに詳しい情報については、当社の最新の 「根拠のないLLMの応答に関する研究」をダウンロードしてください。
世界のSVODプロバイダーにおけるスポーツ番組の配信数は、現在3万8500本を超えている。
フォームにご記入の上、お問い合わせください。
お問い合わせを受け付けました。お送りいただいたメッセージを確認させていただき、できるだけ早くご連絡いたします。