콘텐츠로 건너뛰기
02_Elements/아이콘/왼쪽 화살표 인사이트로 돌아가기
인사이트 > 미디어

기계 학습을 사용하여 진화하는 미디어 환경에서 미래 TV 시청률 예측

5 분간 읽기 | Jingsong Cui, 부사장 및 Scott Sereday, Nielsen 데이터 과학 관리자 | 2016년 10월

미디어 기업과 광고주는 매일 TV 시청률에 의존하여 TV 프로그램의 성공을 측정하고, 시청자 규모와 구성이 미디어 구매 목표에 부합하는지 확인하고, 수치가 미흡할 경우를 대비합니다. 이러한 관점에서 볼 때, TV 시청률은 TV 시청의 과거 또는 기껏해야 현재를 측정하는 지표입니다.

그러나 미디어 회사들은 미래를 예측하기 위해 시청률을 사용하기도 한다. 등급은 기대치를 설정하고 한 시즌에서 다음 시즌으로 넘어가는 프로그램 결정에 영향을 미칩니다. 또한 캠페인이 실제로 방송되기 훨씬 전에 광고 요율을 설정하는 데 도움이 됩니다. 예를 들어, 미국에서는 TV 방송사들이 시즌 광고 인벤토리의 대부분을 1년에 한 번(3월과 5월 사이) 개최하는 '선불' 이벤트에서 판매합니다. 즉, 현재 TV에서 볼 수 있는 광고의 요율은 1년 전에 협상된 것일 수 있습니다.

3개월, 6개월 또는 12개월 후에 프로그램의 시청률이 어떻게 될지 예측하기 위해 연구자들은 예측 모델을 사용하고 있습니다. 이러한 모델 중 다수는 거의 또는 전혀 수정하지 않고 수년 동안 사용되어 왔습니다. 그들은 시청률을 예측하는 데 성공했으며 매년 수십억 달러의 광고 비용 교환을 지원하는 데 큰 역할을 했습니다. 그러나 TV 생태계의 급격한 변화로 인해 신뢰할 수 있는 모델을 개발하는 것이 점점 더 어려워지고 있습니다.

미디어 산업의 최근 기술 혁신 목록을 살펴보자: 시청자는 점점 더 노트북, 태블릿 및 스마트폰을 사용하여 콘텐츠를 시청하고 있습니다. Netflix 및 Amazon Prime과 같은 스트리밍 서비스는 대량 채택에 도달했습니다. 새로운 TV 연결 장치가 대형 화면 경험을 재편하고 있습니다. 사람들은 시간 이동, 스트리밍, 몰아보기를 통해 그 어느 때보다 자신이 소비하는 미디어를 더 잘 통제하고 있습니다. 그들의 행동은 더 복잡할 뿐만 아니라 더 예측할 수 없습니다.

Nielsen은 사람들이 미디어를 소비하는 방식을 측정하는 많은 데이터 리소스에 액세스할 수 있습니다. 디지털 TV 데이터(예측 모델의 입력 및 출력)를 추가하기 전에 먼저 기존 TV 데이터를 유일한 소스로 사용하여 기존 TV의 시청률을 예측하는 방법을 개선할 수 있는지 여부를 조사하고 싶었습니다. Nielsen National People Meter 덕분에 일관된 방법론과 전국을 대표하는 강력한 시청자 패널을 통해 수년 전으로 거슬러 올라가는 고품질 데이터를 얻을 수 있습니다.

우리는 이 풍부한 데이터를 매우 상세한 수준에서 활용하여 새로운 예측 모델을 만들었습니다. 과거 Live+7 등급(즉, 라이브 시청자 및 최초 방송 후 최대 7일 후의 시청자를 포함하는 시청률), C3 등급(최대 3일 후 재생을 포함하는 상업 등급), HUT(특정 시점에 TV를 사용하는 가구의 비율), 도달 범위, 가구 등급, 인구 통계학적 등급, 요일, 시간 및 네트워크 정체성은 입력 변수로 사용한 주요 정보 중 일부입니다. 또한 고급 기계 학습 및 통계 알고리즘(예: 능선 회귀, 랜덤 포레스트 및 그래디언트 부스팅)을 활용하여 관련 데이터 관계를 식별했습니다.

고객과 협력하여 우리가 만든 모델을 테스트하고 검증하기 위해 여러 개념 증명 연구를 수행했습니다. 우리는 세분화된 수준(2-5세 남성 또는 65+ 여성과 같은 소규모 인구 통계학적 그룹의 경우 시간 블록)에서 미래 등급을 예측하도록 모델을 설계했지만 이러한 수치를 네트워크 수준까지 롤업했습니다. 모델이 현실과 어떻게 비교되는지 이해하기 위해 2분기의 보류 기간을 사용하여 예측과 고객의 내부 예측을 실제 등급 데이터와 비교했습니다. 예를 들어, 2014년 1분기까지의 과거 데이터만을 기반으로 2015년 2분기 화요일 오후 9시에서 10시 사이에 네트워크 A의 30-34명에 대한 평균 Live+7 등급을 1.94로 정확하게 예측했습니다. 예측은 99%의 R-제곱(분산의 백분율 설명)이 있는 네트워크 수준에서 매우 정확했지만, 더 세분화된 시간 블록 시간대 수준이나 일부 소규모 인구 통계학적 그룹에서는 더 어려웠습니다. 하지만 아워 블록 수준에서도 우리 모델의 R-제곱은 여전히 95%를 넘었고 고객이 그 시점까지 의존해 온 모델을 크게 능가했습니다. 2,000개 이상의 일별 예측에서 예측은 예측 정확도의 두 가지 주요 척도인 R-제곱의 경우 41%, 가중 절대 백분율 오차(WAPE)의 경우 16% 더 정확했습니다.

이러한 개념 증명 모델과 수행한 테스트에 대한 자세한 내용은 다음 보고서에서 공유할 예정입니다. 이 프로젝트의 핵심은 크고 시끄러운 행동 데이터를 예측 모델링 기능으로 변환하여 매우 효율적인(그리고 자동화된) 방식으로 수행할 수 있었다는 것입니다. 그러나 평가 점수의 소수점 하나하나에는 막대한 재정적 영향이 따르기 때문에 새로운 입력 변수(예: 광고 지출 또는 프로그램별 데이터)를 추가하고, 프로그래밍 패키지 및 채널 라인업의 변화에 빠르게 적응할 수 있는 방법을 구축하고, 새로운 형태의 회귀 및 분류 알고리즘을 테스트하고, 여러 유망한 모델을 하나로 결합하는 등 한계를 뛰어넘어야 합니다.

이 프로젝트는 전통적인 TV에 초점을 맞췄지만, 디지털 데이터의 영향이 과거 데이터의 TV 시청률 변화에 반영되어 예측에도 반영된다는 점이 흥미롭습니다. 그러나 이것은 누적 효과의 간접적인 측정이며 예를 들어 OTT(Over-the-Top) 보기 또는 스마트폰 앱에서의 보기에 특별히 초점을 맞추는 모델을 대체할 수 없습니다. 위에서 설명한 다음 단계 외에도 디지털 데이터의 사용은 향후 예측을 개선하는 데 중요한 요소가 될 것입니다.

결국, 우리는 각 고객이 프로그램에 대한 친밀한 지식을 가지고 있을 뿐만 아니라 이러한 프로그램이 미래에 어떻게 받아들여질 것인지에 대한 강한 직관을 가지고 있음을 인식해야 합니다. 이러한 "인적 요소"는 예측 모델을 구성할 때 무시되어서는 안 되며, 시장의 중요하고 예상치 못한 변화에 대응할 때 특히 유용할 수 있습니다. 풍부한 데이터, 강력한 머신 러닝 알고리즘 및 도메인 전문 지식을 통합하는 시스템은 단독으로 달성할 수 있는 것보다 더 나은 결과를 얻을 수 있습니다.

관련 태그:

유사한 인사이트 계속 탐색