현실적인 사고: 데이터가 AI 기반 CTV 경험의 성패를 좌우하는 이유

타일러 벨, 제품 부문 수석 부사장

기업들이 효율성 향상을 위해 대규모 언어 모델(^LLM1)과 같은 생성형 AI 시스템을 도입함에 따라, 기존의 다양한 기술들은 점차 도태될 것입니다. TV 분야에서는 LLM이 기존의 데이터베이스와 기초적인 검색 기능을 보완하고, 결국에는 이를 대체하게 될 것입니다. 시간이 지남에 따라 LLM은 차세대 엔터테인먼트 경험을 제공하는 핵심 엔진으로 자리 잡을 것입니다.

이러한 변화는 소비자들에게 획기적인 전환점이 될 것입니다. 예를 들어, TV 시청자들은 볼 만한 프로그램을 찾을 때 더 이상 기본적인 검색어에만 국한되지 않게 될 것입니다.

하지만 최신 정보와 정확하며 관련성 높은 결과를 제공하는 이러한 유형의 경험을 구축하려면 단순히 잘 훈련된 대규모 언어 모델(LLM)만으로는 부족합니다.

그 이유는 LLM이 포괄적인 지식 저장소가 아니기 때문입니다. LLM은 훈련 데이터에서 학습한 패턴을 바탕으로 응답을 생성하는 예측 엔진일 뿐입니다. 게다가 그 데이터는 너무나도 자주 결함이 있습니다.

남부 캘리포니아 대학교 연구진이 2022년에 실시한 연구에 따르면, 서로 다른 두 개의 AI 데이터베이스에 사용된 상식적인 “사실” 데이터 중 최대 38%가 편향된 것으로 나타났습니다. 즉, 해당 시스템의 기초 데이터 중 3분의 1 이상이 애초부터 부정확했던 것입니다.

LLM은 비교적 간단한 작업에서도 어려움을 겪습니다. 2025년 3월, ‘컬럼비아 저널리즘 리뷰(Columbia Journalism Review)’의 연구에 따르면, 8개의 생성형 AI 도구가 뉴스 기사 발췌문과 해당 기사 제목, 원본 발행처, 발행일, URL을 연결해 달라는 요청을 받았을 때 총 60%의 오류율을 보였습니다. 이에 비해 기존의 구글 검색은 상위 3개 검색 결과 내에 해당 출처를 모두 찾아냈습니다.

LLM의 한계는 널리 알려져 있으며, 허위 출력을 줄이고 문맥적 관련성을 높이기 위한 다양한 기법이 존재한다.^{그라운딩2의} 가치를 부정하는 사람은 거의 없을 것이다. 하지만 그라운딩을 위해 LLM을 부정확한 데이터에 연결하는 것은, 결함이 있는 데이터를 사용하여 LLM을 훈련시키는 것만큼이나 문제가 있다.

여기서 핵심은 잘못된 데이터가 실질적인 위협이 된다는 점입니다. 대규모 언어 모델(LLM)은 강력한 도구이지만, 그 성능은 접근할 수 있는 정보의 질에 달려 있습니다.

CTV에서의 LLM 도입

LLM로의 전환은 단번에 일어나는 급격한 변화로 이루어지지는 않을 것이다. 오히려 헤밍웨이의 소설 『태양은 다시 떠오른다』에서 마이크 캠벨이 자신의 파산을 묘사한 것처럼, “서서히, 그러다 갑자기” 일어날 것이다.

LLM은 여전히 비교적 새로운 기술입니다. 기업들은 이를 소비자 대상 검색 인터페이스에 도입하기 전에, 이 기술이 가진 한계와 지연 시간 문제, 그리고 비용적 영향을 충분히 파악해야 합니다. 하지만 근본적인 과제는 바로 데이터입니다.

대부분의 CTV 인터페이스는 여러 출처의 이종 메타데이터를 포함하는 데이터 레이크를 기반으로 구축되며, 이러한 데이터는 색인화 및 검색 최적화를 위해 먼저 통합 및 정규화되어야 합니다. 이 과정에는 대용량 데이터 세트를 사전에 다운로드하고, 복잡한 수집 파이프라인을 통해 처리하며, 데이터를 최신 상태로 유지하기 위해 지속적으로 업데이트하는 작업이 필요합니다.

반면, 대규모 언어 모델(LLM)은 실행 시점에 여러 출처의 데이터를 해석하고 통합하는 데 탁월하여, 기존의 데이터 레이크와 관련 인프라에 대한 필요성을 줄이거나 심지어 없앨 수도 있습니다.

동시에, 대규모 언어 모델(LLM)은 기존 기술로는 불가능했던 새로운 기능과 막대한 잠재력을 CTV에 제공합니다. 예를 들어, 대규모 언어 모델은 영화나 에피소드 설명을 동적으로 재작성하거나 보강하여 개별 사용자에게 더욱 적합한 내용을 제공할 수 있습니다.

예를 들어, 시청자가 《쇼생크 탈출》을 시청한 후, LLM은 《그린 마일》을 추천하며 다음과 같은 맞춤형 설명을 덧붙일 수 있습니다. “이 영화는 스티븐 킹의 원작을 각색한 작품으로, 감옥을 배경으로 희망에 관한 이야기를 다루고 있으며, 이전에 즐겨 보셨던 《쇼생크 탈출》과 비슷한 감성적 깊이를 지니고 있습니다.”

이러한 맥락 기반 추천은 일반적인 “이 영상을 시청하셨으므로” 형식의 추천보다 훨씬 개선된 방식입니다. 대규모 언어 모델(LLM)은 카탈로그에 있는 모든 타이틀에 이 방식을 적용할 수 있습니다.

당분간 대규모 언어 모델(LLM)은 기존 기술을 보완하는 형태로 도입되어, 기존 시스템으로는 처리할 수 없는 복잡하거나 대화형 쿼리를 처리하게 될 것입니다. 시간이 지남에 따라 일부 조직은 기존 인프라를 완전히 대체할 것입니다. 결국 대규모 언어 모델이 판도를 뒤바꿀 것입니다.

콘텐츠의 파편화로 인해 TV 시청 경험이 복잡해졌다

이용 가능한 콘텐츠가 풍부함에도 불구하고, 동영상 유통 시장의 분열로 인해 콘텐츠를 찾는 일이 더 어려워졌을 뿐 아니라, 오히려 콘텐츠 제공업체들에게 불리하게 작용하고 있다.

실제로 최근 업계 조사에 따르면, 미국 TV 시청자의 거의 50%가 볼 만한 콘텐츠를 찾지 못해 스트리밍 서비스 해지를 고려하고 있는 것으로 나타났다. 25세에서 34세 사이의 시청자층에서는 이 비율이 58%까지 올라간다.

콘텐츠가 많다고 해서 반드시 시청^시간이 늘어나는 것은 아닙니다³. 실제로, 선택의 폭이 너무 넓으면 시청자들이 검색을 아예 포기하고 다른 일을 하기로 결정할 수도 있습니다.

이 부분에서 LLM이 도움이 될 수 있습니다. 단, 올바른 데이터에 기반을 두고 있을 때에만 말이죠.

CTV 플랫폼의 경우, 신뢰할 수 있는 업계 표준 엔터테인먼트 데이터가 이상적인 기반이 됩니다. 표준화된 프로그램 정보를 제공하는 것 외에도, 이 데이터에는 최신 TV 편성표가 포함되어 있는데, 이는 무엇을 보고 싶은지는 알지만 어디서 찾아야 할지 모르는 시청자들에게 필수적인 정보입니다. 이는 특히 생중계 스포츠의 경우 매우 중요합니다.

시간이 지남에 따라 대규모 언어 모델(LLM)은 시청자들에게 획기적인 TV 시청 경험을 선사할 것입니다. 1985년 박스오피스 수익 기준 최고의 공포 영화를 찾고 계신가요? 문제없습니다. 월드컵을 시청한 후 평론가들의 평가를 바탕으로 최고의 축구 영화를 추천받고 싶으신가요? 간단합니다. 특정 경기, 프로그램 또는 영화를 어떤 서비스에서 볼 수 있는지 알아보고 계신가요? 걱정 마세요.

소비자들이 기술과 상호작용하는 방식에 대한 기대치는 계속해서 높아지고 있으며, CTV 플랫폼은 이러한 흐름을 선도할 기회를 맞이하고 있습니다. 대규모 언어 모델(LLM)은 이러한 기대를 충족시킬 수 있지만, 신뢰할 수 있고 최신의 데이터에 기반을 두었을 때에만 가능합니다. TV 시청자들이 자신의 시간과 돈을 어디에 쓸지 끊임없이 재고하는 상황에서, 검증되지 않았거나 신뢰할 수 없는 정보가 초래하는 대가는 더 이상 무시할 수 없게 되었습니다.

이 기사는 원래 Streaming Media에 게재되었습니다.

참고

LLM은 학습된 패턴을 바탕으로 콘텐츠를 생성하는 생성형 AI의 한 종류입니다.
그라운딩(Grounding)은 대규모 언어 모델(LLM)을 실제 세계의 정보와 연결하여 응답의 신뢰성과 관련성을 높이는 과정입니다.
지난 몇 년간 TV 시청 총 시간은 주당 33~35시간으로 변동이 없었습니다; Nielsen 인사이트 데이터 (Nielsen , Nielsen 임팩트)

데이터 기반 사고: AI 기반 CTV 경험의 성패를 좌우하는 데이터의 역할

CTV에서의 LLM 도입

콘텐츠의 파편화로 인해 TV 시청 경험이 복잡해졌다

참고

관련 태그

공유

최신 통찰력

왜 실세계 데이터가 반영되지 않은 대규모 언어 모델로는 콘텐츠 탐색 문제를 해결할 수 없는가

AI의 설정 오류

글로벌 SVOD 서비스의 스포츠 콘텐츠가 머지않아 영화 라이브러리에 필적할 것으로 보인다

연락하기

문의해 주셔서 감사합니다.