跳转到内容
洞察力>观众

理解大数据的科学方法

5分钟阅读|Clem Thompson,尼尔森数据科学副总裁|2019年5月

你今天打开电视了吗?广播呢?你可能使用了智能手机上的一个应用程序。也许你在商店买了晚餐的配料,或者在网上购买了一瓶新的洗发水。

所有这些活动都是简单的、日常的行动。但在今天这个广阔的、相互联系的、经常是数字化的世界中,它们也是有价值的数据点。

重要的是,它们可以帮助品牌和营销人员了解其消费者的需求,做出更好的决定以满足这些需求,并最终推动其业务增长。但首先,品牌和营销人员需要对所有的数据进行分析。

在今天的数字时代,我们所有人产生的数据的规模和范围都是惊人的,尼尔森测量了很多。考虑到这一点。尼尔森每月收集17亿条电视收视记录,每月收集67亿次商店交易,每年收集1.6万亿次在线印象。把我们日常行为产生的巨大的、有时是混乱的数据堆,组织成可用的、实用的和有意义的信息--同时也是数据的负责任的管理者,并确保人们的隐私--需要特定的知识和技能。

幸运的是,为品牌和营销人员提供新的数据源的新兴技术和平台,也使新的工具和手段能够衡量并从这些数据中获得洞察力。数据科学团队的作用是追求新的数据源和分析工具,以帮助解析(从而理解)消费者创造的大数据。利用科学方法、流程、算法和系统,数据科学家正在这些滚雪球式的数据点中发现有价值的洞察力。

在尼尔森,大约1100名数据科学家的任务是为我们的客户寻找合理的、可重复的 "连接点 "方法,并讲述关于他们的消费者需求的故事。虽然这个比喻中的 "点 "代表了我们的客户在努力了解他们的消费者时可用的看似无限的数据点,但我们的数据科学家所能产生的连接是我们客户决策的第一要素,也是他们成长的燃料。

作为尼尔森数据科学家团队的一员,我致力于开发定制解决方案,以整合数据并为我们的客户建立关键联系。这些解决方案包括数据融合、定制受众细分、投资回报率分析和全新的方法论,以整合数据源,回答有关消费者的具体业务问题。

毫无疑问,新技术和大数据正在彻底改变我们衡量媒体消费和购买产品的方式。但同样重要的是要记住,它们也有其局限性。

技术的创建通常并没有考虑到测量。因此,大数据在很多方面都会有偏差。例如,考虑一下你用来改变电视频道的遥控器。按下一个按钮就会向一个盒子发送信号,而这个信号会产生数据。但这些数据在它能告诉你的方面是有限的。例如,它不知道是你按下了按钮,还是其他家庭成员按的。有偏见的数据会导致对消费者的错误认识,以及营销人员的错误决策。

这里有另一个例子。与电视连接的设备和订阅的视频点播服务使消费者能够在他们想要的时候选择他们想要的东西。但只有大约60%的美国人拥有这些设备。因此,这些设备的数据并不代表整个美国人口。此外,这些数据需要与线性电视指标进行比较,以提供一个电视景观的整体视图。

在尼尔森,我们在使用大数据的同时,还使用面板来匹配数据点和真实人物。一个精心构建的小组可以消除大数据中固有的许多偏见。例如,我们使用我们的美国电视面板来统计全国人口的年龄、种族和收入水平。通过将这些小组的洞察力与尼尔森从有线电视盒中获得的大数据相结合,由于与有线电视供应商公司的合作,我们能够发现谁是遥控器的背后。因此,涉及小组和大数据的混合测量方法可以提供大数据的颗粒度和细节,并提供小组的偏见减少和代表性。

随着我们将人工智能(AI)用于工作时提供的马力呈指数级增长,确保数据输入是干净的、可信的和有代表性的,这一点从未像现在这样关键。如果不能满足这一标准,就意味着你正在产生更多(由于人工智能)的不良结果。重要的是要记住,它是垃圾进,垃圾出。所谓 "足够好 "的数据在人工智能的世界里根本不够好。

数据科学家本身也在减少测量中的偏差方面发挥了关键作用。虽然我们的数据科学团队确实包括了一些非常有才华的统计学家,但很多人可能会惊讶于我们的团队到底有多多元化。尼尔森的数据科学团队包括来自不同背景的同事,如数学、行为科学、化学工程、物理学、教学、经济学和计算机工程,以及其他许多学科。这些不同的观点有助于确保我们在测量中考虑不同的观点。

最终,在今天的大数据世界里,越来越多的商业学科--无论是财务、客户服务、人力资源、媒体分析等--都在不断发展,将数据科学纳入各自的实践中。赋予更多具有不同背景的人以统计方法、编程和分析技能的核心知识,为今天不同领域的业务更好地决策打开了大门。

我相信这对数据科学的未来是个好兆头,只要这些新进入该领域的人了解从我们的日常数据点中收集高质量见解所必需的偏见和考虑。