Menggunakan Pembelajaran Mesin untuk Memprediksi Peringkat TV di Masa Depan dalam Lanskap Media yang Terus Berkembang

Perusahaan media dan pengiklan mengandalkan rating TV setiap hari untuk mengukur kesuksesan acara TV, memverifikasi bahwa ukuran dan komposisi pemirsa mereka sesuai dengan target pembelian media, dan melakukan perbaikan jika angka-angkanya kurang. Dari sudut pandang tersebut, rating TV adalah metrik yang mengukur masa lalu, atau paling banter saat ini, dari penayangan TV.

Namun perusahaan media juga menggunakan rating untuk memprediksi masa depan. Rating menentukan ekspektasi dan memengaruhi keputusan pemrograman dari satu musim ke musim berikutnya. Rating juga membantu menetapkan tarif iklan jauh sebelum sebuah kampanye benar-benar ditayangkan. Di AS, misalnya, jaringan TV menjual sebagian besar inventaris iklan mereka untuk musim tersebut di "upfront," sebuah acara yang mereka selenggarakan hanya setahun sekali (antara Maret dan Mei). Ini berarti bahwa tarif untuk iklan yang Anda lihat di TV hari ini mungkin telah dinegosiasikan lebih dari setahun yang lalu.

Untuk memprediksi berapa rating sebuah acara dalam tiga, enam, atau 12 bulan ke depan, para peneliti menggunakan model peramalan. Banyak dari model-model tersebut telah digunakan selama bertahun-tahun dengan sedikit atau tanpa modifikasi. Mereka telah berhasil memprediksi rating dan telah melakukan pekerjaan yang baik dalam mendukung pertukaran miliaran dolar iklan setiap tahun. Namun perubahan yang cepat dalam ekosistem TV membuat semakin sulit untuk mengembangkan model yang dapat diandalkan.

Pertimbangkan daftar inovasi teknologi terbaru dalam industri media: Pemirsa semakin sering menggunakan laptop, tablet, dan ponsel pintar mereka untuk menonton konten; layanan streaming seperti Netflix dan Amazon Prime telah diadopsi secara massal; perangkat baru yang terhubung ke TV membentuk ulang pengalaman layar lebar. Orang-orang mulai mengubah waktu, melakukan streaming dan menonton secara berlebihan-mereka lebih memegang kendali atas media yang mereka konsumsi daripada sebelumnya. Perilaku mereka tidak hanya lebih kompleks, tetapi juga lebih tidak terduga.

Di Nielsen, kami memiliki akses ke banyak sumber data yang mengukur bagaimana orang mengonsumsi media. Sebelum menambahkan data TV digital ke dalam campuran (sebagai input maupun output dari model peramalan kami), kami ingin memeriksa apakah mungkin untuk terlebih dahulu meningkatkan cara kami memprediksi peringkat untuk TV tradisional, dengan menggunakan data TV tradisional sebagai satu-satunya sumber. Berkat Nielsen National People Meter, kami memiliki data berkualitas tinggi yang sudah ada sejak beberapa tahun yang lalu, dengan metodologi yang konsisten dan panel pemirsa yang representatif secara nasional.

Kami memanfaatkan data yang kaya ini pada tingkat yang sangat rinci untuk membuat model prediksi baru: Variabel seperti peringkat Live+7 historis (yaitu, yang mencakup pemirsa langsung, serta pemirsa hingga tujuh hari setelah siaran awal), peringkat C3 (peringkat komersial yang mencakup pemutaran hingga tiga hari setelahnya), HUT (persentase rumah tangga yang menggunakan televisi pada suatu waktu), jangkauan, peringkat rumah tangga, peringkat demografis, hari dalam seminggu, jam dalam sehari, dan identitas jaringan merupakan beberapa bagian penting dari informasi yang kami gunakan sebagai variabel input; dan kami memanfaatkan pembelajaran mesin dan algoritme statistik yang canggih (seperti ridge regression, random forest, dan gradient boosting) untuk mengidentifikasi hubungan data yang relevan.

Bekerja sama dengan klien, kami melakukan sejumlah studi pembuktian konsep untuk menguji dan memvalidasi model yang kami buat. Kami merancang model kami untuk memprediksi peringkat di masa depan pada tingkat yang lebih rinci (blok per jam untuk kelompok demografis kecil, seperti laki-laki usia 2-5 tahun atau perempuan 65+), tetapi kami juga menggulung angka-angka tersebut ke tingkat jaringan. Untuk memahami bagaimana kinerja model kami terhadap kenyataan, kami menggunakan periode penangguhan selama dua kuartal untuk membandingkan prakiraan kami serta prakiraan internal klien kami dengan data rating yang sebenarnya. Sebagai contoh, kami secara akurat memprediksi rata-rata rating Live+7 sebesar 1,94 untuk usia 30-34 tahun di Jaringan A antara pukul 21.00 dan 22.00 pada hari Selasa selama kuartal kedua tahun 2015, hanya berdasarkan data historis hingga kuartal pertama 2014. Prediksi sangat akurat di tingkat jaringan, di mana kami memiliki 99% R-squared (persentase varians yang dijelaskan), tetapi prediksi lebih sulit pada tingkat jam-blok hari yang lebih terperinci, atau untuk beberapa kelompok demografis yang lebih kecil. Bahkan pada tingkat blok jam, R-kuadrat model kami masih mencapai 95% dan secara signifikan mengungguli model yang selama ini diandalkan oleh klien kami. Di lebih dari 2.000 proyeksi waktu harian, prakiraan kami 41% lebih akurat untuk R-squared dan 16% lebih akurat untuk weighted absolute percentage error (WAPE) - dua ukuran utama dalam akurasi prakiraan.

Kami akan membagikan lebih banyak detail tentang model-model pembuktian konsep tersebut dan pengujian yang kami lakukan dalam makalah mendatang. Kesimpulan utama dari proyek ini adalah bahwa kami dapat mengubah data perilaku yang besar dan berisik menjadi fitur pemodelan prediktif dan melakukannya dengan cara yang sangat efisien (dan otomatis). Namun setiap titik desimal dari poin rating memiliki implikasi finansial yang sangat besar, dan kami harus terus mendorong amplop dengan menambahkan variabel input baru (seperti belanja iklan atau data khusus program), membangun cara untuk beradaptasi dengan cepat terhadap perubahan paket pemrograman dan susunan saluran, menguji bentuk baru algoritma regresi dan klasifikasi, atau bahkan menggabungkan beberapa model yang menjanjikan menjadi satu.

Meskipun proyek ini berfokus pada TV tradisional, menarik untuk dicatat bahwa dampak data digital tercermin dalam perubahan peringkat TV dalam data historis-dan dengan demikian juga dalam prediksi kami. Namun, ini merupakan pengukuran tidak langsung dari efek kumulatif dan tidak dapat menggantikan model yang secara khusus berfokus pada penayangan over-the-top, misalnya, atau penayangan di aplikasi ponsel pintar. Selain langkah-langkah selanjutnya yang diuraikan di atas, penggunaan data digital akan menjadi elemen penting untuk meningkatkan prakiraan kami di masa depan.

Pada akhirnya, kita juga perlu menyadari bahwa setiap klien memiliki pengetahuan yang mendalam tentang program-programnya, serta intuisi yang kuat tentang bagaimana program-program tersebut dapat diterima di masa depan. "Elemen manusia" tersebut tidak boleh diabaikan ketika kita menyusun model prediktif dan dapat menjadi sangat berharga ketika bereaksi terhadap perubahan yang signifikan dan tak terduga di pasar. Sistem yang mengintegrasikan data yang kaya, algoritme pembelajaran mesin yang kuat, dan keahlian domain dapat mencapai hasil yang lebih baik daripada yang dapat dicapai oleh masing-masingnya.

Menggunakan Pembelajaran Mesin untuk Memprediksi Peringkat TV di Masa Depan Dalam Lanskap Media yang Terus Berkembang

5 menit baca | Jingsong Cui, VP, dan Scott Sereday, Manajer, Ilmu Pengetahuan Data, Nielsen | Oktober 2016

Lanjutkan menelusuri wawasan serupa

Mengembangkan pengukuran acara olahraga

Cuaca yang lebih dingin dan playoff NFL mendorong peningkatan penggunaan TV di bulan Januari

Audiens kulit hitam mencari representasi yang relevan dalam iklan dan konten

Temukan solusi yang tepat untuk bisnis Anda

Bagaimana kami bisa membantu?

Wawasan > Media