왜 실세계 데이터가 없는 대규모 언어 모델로는 콘텐츠 검색 문제를 해결할 수 없는가

인공 지능 콘텐츠 발견

이런 상황을 상상해 보세요. 긴 하루가 끝나고, 현실에서 벗어나기 위해 거실 소파에 쓰러지듯 앉아 스트리밍 서비스의 세계로 빠져듭니다. 끝없이 이어지는 프로그램 목록을 일일이 훑어보는 대신, 음성 인식 리모컨에게 “비 오는 작은 마을을 배경으로 한, 방금 개봉한 긴장감 넘치고 서서히 긴장감이 고조되는 범죄 스릴러 영화”를 찾아달라고 요청합니다.

이것이 바로 생성형 AI의 매력입니다. 바로 대화형 방식으로 실제 세계의 콘텐츠를 탐색할 수 있다는 점입니다. 하지만 단점도 있습니다. 기업용으로 배포되는 대규모 언어 모델(^LLM1)은 제미니(Gemini)나 챗GPT(ChatGPT)와 같은 인기 챗봇처럼 질문에 답변할 수 있는 기능을 갖추고 있지 않습니다. 이는 이러한 모델들이 초기 훈련 데이터 외부의 지식을 전혀 가지고 있지 않기 때문입니다.

위의 예시에서 볼 수 있듯이, 신작 영화에 대한 정보는 근거가 없는 대규모 언어 모델(LLM)의 훈련 데이터 범위를 벗어납니다. 따라서 AI 기반 어시스턴트는 숨겨진 명작을 추천하는 대신, 자신 있게 줄거리를 지어내거나, 이름이 비슷해 보이는 두 영화의 요소를 조합하거나, 심지어 해당 서비스가 배급권을 가지고 있지 않은 영화를 추천할 수도 있습니다.

‘그 정도면 충분하다’는 말이 실제로는 그렇지 않을 때

AI 분야에서 완벽하지 않은 응답은 확률에 기반해 반응하는 기술의 잘 알려진 부수적 결과입니다. 하지만 널리 사용되는 챗봇들은 신뢰할 수 있는 외부 데이터 소스(예: ‘그라운딩’)와 연동되어 응답의 신뢰성을 뒷받침함으로써 이점을 얻습니다. 이것이 바로 기업용 대규모 언어 모델(LLM)의 기업용 대규모 언어 모델(LLM)의 경우와는 다릅니다. 이들은 훈련된 내용만 알고 있을 뿐입니다. 그 결과, 종종 어떻게 응답해야 할지 모르거나, 단순히 내용을 지어내기도 합니다(예: ‘환각’).

예를 들어, 최근 Gracenote , 배경 지식이 부족한 대규모 언어 모델(LLM)은 박스오피스 수익이나 인기 연예 매체의 보도 여부와 관계없이 지난 2년 동안 개봉한 영화에 대한 정보를 제공하는 데 어려움을 겪는 것으로 나타났습니다. 대표적인 예로는 《GOAT》, 《Mercy》, 《 Send Help》, 《Solo Mio 》, 《It Was Just an Accident》 등이 있습니다.

하지만 LLM이 정답을 모른다고 해서, 모른다는 사실을 인정하는 것은 아닙니다. 13개국에서 방영된 인기 TV 프로그램 및 영화 2,600편을 대상으로 한 본 연구에서, 근거가 없는 LLM은 506개 작품(연구 대상 작품의 20%)에 대해 응답 정보의 100%를 허위로 생성해 냈습니다.

양질의 결과를 얻으려면 데이터에 담긴 세부 사항에 주목해야 합니다

시청자들이 보고 싶어 하는 콘텐츠를 찾아주려면, 대규모 언어 모델(LLM)은 실시간 정보와 메타데이터 속성을 매칭하는 능력 이상의 것이 필요합니다. AI 사용이 확대됨에 따라 높아지는 고객의 기대에 부응할 수 있을지는, 개별 동영상 카탈로그에 포함된 수천 개의 타이틀에 대한 포괄적인 정보를 제공할 수 있는 서비스의 역량에 달려 있습니다. 이 점에서, 데이터 기반이 부족한 대규모 언어 모델(LLM)은 이 과제를 감당하기 어렵습니다.

비그라운딩 LLM의 전반적인 성능을 평가하기 위해, 총 2,600개의 제목에 대해 제공된 전체 결과에 품질 점수를 부여했습니다. 이 점수(0점, 저품질, 중품질, 고품질)는 그라운딩 데이터와의 메타데이터 속성 일치 여부와 응답의 사실적 정확도라는 두 가지 별개의 평가 결과를 종합하여 산출된 것입니다.

총 2,600건의 문헌을 대상으로 한 분석 결과, 품질이 ‘0’, ‘낮음’, ‘중간’으로 평가된 결과의 합산 비율은 77%에서 91%에 달하는 등 상당히 높은 수준을 보였습니다. 고품질로 평가된 결과는 3분의 1도 채 되지 않았습니다. 네덜란드와 멕시코의 경우, 고품질로 평가된 결과는 10% 미만이었습니다.

콘텐츠의 파편화와 구독 피로감이 심화되는 가운데, 동영상 엔터테인먼트 분야의 성공은 점점 더 사용자 경험에 좌우될 것입니다. 이러한 상황에서 대규모 언어 모델(LLM)은 콘텐츠 탐색과 관련해 커져만 가는 불만을 해소할 수 있는 잠재력을 지니고 있지만, 잘못된 결과를 내놓는다면 소용이 없습니다. 특히 기업용 사례에서 흔히 볼 수 있듯이, 근거가 부족한 LLM은 콘텐츠 목록이 늘어나고 배포가 더욱 분산되는 상황에서 성공을 좌우할 만한 신뢰할 수 있는 실시간 결과를 제공하지 못할 것입니다.

더 자세한 내용을 확인하시려면 당사의 최근 LLM 응답의 근거 부족에 관한 연구를 다운로드해 보세요.

참고

LLM은 방대한 양의 데이터를 바탕으로 훈련되어 인간과 유사한 언어를 이해하고 생성할 수 있는 생성형 AI의 한 종류입니다.

왜 실세계 데이터가 반영되지 않은 대규모 언어 모델로는 콘텐츠 탐색 문제를 해결할 수 없는가

‘그 정도면 충분하다’는 말이 실제로는 그렇지 않을 때

양질의 결과를 얻으려면 데이터에 담긴 세부 사항에 주목해야 합니다

참고

관련 태그

공유

최신 통찰력

AI가 올바른 TV 에피소드를 찾아낼 수 있을까? 확실하게는 아니다.

AI의 설정 오류

글로벌 SVOD 서비스의 스포츠 콘텐츠가 머지않아 영화 라이브러리에 필적할 것으로 보인다

연락하기

문의해 주셔서 감사합니다.