Skip to content
Aperçus > Médias

Retour à l'envoyeur : Comment le Big Data seul peut être biaisé et non représentatif

6 minutes de lecture | Mars 2019

À l'heure de la fragmentation des appareils et de l'audience, il est clair que chaque spectateur est un consommateur potentiel important, même si la personnalisation de sa consommation de contenu, ainsi que du contenu lui-même, est beaucoup plus granulaire.

Il est essentiel pour l'industrie de pouvoir mesurer de manière à représenter équitablement toutes les races, tous les âges, toutes les ethnies et tous les comportements, afin de réaliser des transactions en toute confiance. C'est également le seul moyen de s'assurer que les choix de contenu reflètent la diversité de la communauté d'une station donnée.

Qu'il s'agisse de programmateurs cherchant à découvrir la composition de leur véritable diversité d'audience pour prendre des décisions de programmation, d'annonceurs cherchant à atteindre des segments spécifiques avec des messages précis ou de propriétaires de médias faisant plus d'efforts pour l'inclusion à l'écran en faisant des castings en tenant compte de la diversité, tous les opérateurs du secteur ont un impératif commercial de savoir quelle est la véritable composition de l'audience. C'est pourquoi il est essentiel que les données de mesure sur lesquelles ils s'appuient soient pleinement représentatives du riche pastiche de la population américaine. Aucun groupe ne doit être sciemment ou inconsciemment exclu ou sous-représenté.

En bref, il n'existe plus de téléspectateurs ou de réseaux "de niche", et aucun public ne devrait être laissé pour compte à cause de processus de mesure qui ne les prennent pas en compte ou, pire, qui ne les considèrent même pas. En matière de mesure, l'inclusion est un impératif et non une option.

Et si le big data présente de nombreux avantages, il présente également des inconvénients si les entreprises ne le traitent pas de manière responsable. Il est essentiel d'adopter une approche qui tire parti des atouts de ces données, comme la stabilité de la mesure dans un environnement de visionnage très fragmenté, avec une véritable mesure au niveau des personnes. En d'autres termes, le big data, en tant que ressource autonome, ne permet pas de comprendre pleinement la dynamique de l'audience.

Une analyse récente de Nielsen a examiné comment le big data, construit sans représentation à l'esprit, pourrait obscurcir ce que sont ces véritables audiences en raison d'un biais inhérent, comme les données incluses, telles que les personnes SANS décodeur, les personnes qui exploitent les signaux en direct (O TA) et le contenu en streaming over-the-top (OTT) pour regarder des programmes de télévision premium.

Plus précisément, l'analyse a cherché à comprendre les différences de mesure d'audience entre les données de retour (RPD) - les foyers qui ont des boîtiers décodeurs capables de renvoyer des données - et les foyers avec des données de téléspectateurs qui ont été calibrées sur la base du panel de téléspectateurs de Nielsen. L'analyse a révélé que les données RPD non calibrées, qui utilisent des méthodes de pondération douteuses, sous-estiment les audiences minoritaires et sont intrinsèquement biaisées. Les comparer aux données du "recensement" est un acte de foi méthodologique.

Après tout, les Américains n'abordent plus leurs besoins en matière de programmation vidéo de la même manière. Certains n'ont pas les moyens d'acheter du contenu de divertissement de qualité supérieure, d'autres optent pour des programmes en direct en raison de l'amélioration de la technologie numérique. Les progrès technologiques généralisés ont également entraîné une croissance constante du nombre de foyers équipés d'un système à large bande (BBO). La combinaison des foyers OTA et BBO a gonflé aux États-Unis, passant de 15 millions de foyers en 2014 à près de 28 millions de foyers en 2018. Si l'on tient compte du fait que 41 % des consommateurs de ces 28 millions de foyers sont multiculturels (soit hispaniques, afro-américains ou asiatiques) et que 10 % appartiennent à un groupe démographique plus jeune (18-24 ans), il est clair qu'un échantillon RPD sous-représenterait considérablement ces audiences et fausserait la mesure de l'audience totale.

Les données relatives aux foyers équipés de la technologie RPD sous-représentent systématiquement les foyers hispaniques et afro-américains par rapport aux autres types de foyers. Par rapport aux estimations officielles du recensement des États-Unis et au panel national représentatif de Nielsen, les foyers équipés de la technologie RPD sous-représentent les Hispaniques de 33 %, les Hispaniques à dominante hispanique de 49 % et les Afro-Américains de 34 %. Si l'on compare les foyers compatibles avec la RPD aux foyers OTA/BBO, la disparité de représentation est encore plus grande. La mesure de la capacité RPD sous-représente les hispaniques de 50%, les hispaniques à dominante hispanique de 68% et les afro-américains de 38%. La pondération seule ne résout pas ce problème, et le fait que des millions de foyers RPD soient comptés n'a aucune importance. Un grand échantillon biaisé est toujours biaisé.

Et ce ne sont pas seulement les publics multiculturels que ces sources biaisent.

Du point de vue de l'âge, les données compatibles avec le système RPD sous-représentent les groupes démographiques plus jeunes et sur-représentent les groupes d'âge plus âgés. Par exemple, les consommateurs de 25 à 34 ans sont sous-représentés de 26 %, tandis que les personnes de 50 ans et plus sont en fait surreprésentées de 15 %. Qu'en est-il du groupe démographique clé des 18-34 ans ? Le panel national de Nielsen et les données du recensement montrent également qu'il y a 69,8 millions d'adultes de 18-34 ans au sein des foyers TV en décembre 2018. Cette démo est à la tête de la révolution du cordon et représente la plus grande part des cordonneurs par démo. Mais les foyers équipés de DSPR sont 17 % moins susceptibles de caractériser les adultes de 18 à 34 ans avec précision qu'un panel représentatif.

En sous-comptant les adultes de 18 à 34 ans, les spécialistes du marketing, les propriétaires de médias et tous ceux qui se trouvent entre les deux ont moins de personnes à atteindre s'ils se fient uniquement aux données de la SPR. La pondération de cette question peut masquer le problème inhérent aux données SPR, mais elle ne résoudra pas le problème et ne permettra pas de découvrir les comportements d'écoute uniques de ces publics. Les foyers SPR ne sont pas représentatifs de l'écoute des foyers non SPR. Des enquêtes en ligne occasionnelles réalisées à quelques années d'intervalle et appliquées à des enregistrements quotidiens complexes sont un moyen bon marché et négligent de faire croire que quelque chose a été corrigé.

Un examen des consommateurs qui appartiennent au groupe RPD, à un groupe non compatible RPD (ce qui signifie que ces consommateurs peuvent avoir un décodeur qui ne renvoie pas de données) et au groupe OTA/BBO en pleine expansion révèle des différences marquées dans leurs comportements et leurs styles de vie. Il s'agit là d'un résultat que l'on ne peut obtenir que par l'observation directe, quelle que soit la pondération effectuée et quelle que soit la taille des données, qu'il s'agisse d'un échantillon de 30 millions, de milliards ou de trillions.

Alors, qu'est-ce que cela signifie pour la programmation réelle qui est alimentée par des publics multiculturels ? Cela signifie que toutes les sources doivent être prises en compte et que tous les types de publics doivent être observés afin d'être comptabilisés et calibrés avec n'importe quel ensemble de données.

Par exemple, une émission comme Empire de Fox , dont la composition du public est majoritairement multiculturelle, l'analyse a révélé que ces audiences étaient tout sauf " de niche ", compte tenu de l'histoire de l'émission en tant que programme proche du sommet des classements. En fait, les audiences diversifiées représentaient 75 % d'Empire en décembre 2018 et ces audiences ont certainement contribué au succès des audiences lorsqu'on utilise un panel représentatif.

Mais en raison de son biais inhérent de sous-représentation, ces audiences multiculturelles n'ont pas été reflétées de manière équitable, ce qui entraîne un sous-dénombrement significatif de l'audience d'Empire lorsqu'on regarde cette émission à travers la lentille de la SPR. Les différences sont assez importantes. Si l'on regarde le classement parmi les téléspectateurs de 25 à 54 ans, Empire s'est classé 16e en utilisant le panel représentatif de Nielsen, mais a chuté à 38 dans les foyers de la SPR. À l'inverse, Empire s'est classé troisième parmi les foyers OTA, ce qui, bien que peu surprenant car ces foyers sont plus diversifiés, démontre la nature critique de l'inclusion de ces foyers et de la mesure précise de leur comportement dans tout échantillon.

En fin de compte, trouver une approche qui s'appuie sur tout ce qui n'est pas une mesure complète, précise et inclusive et les éléments fondamentaux et le principe de base de l'inclusion pourraient être compromis. Le fait d'exclure par définition ces téléspectateurs "de niche" et leurs comportements peut avoir des conséquences importantes qui pourraient déstabiliser le marché - et les spécialistes du marketing - par des informations erronées et peut-être même faire reculer l'inclusion à l'écran.