慧数汽车大数据首页>公司动态

大数据

避免盲目跟风,大数据热潮还需冷思考

2017-01-04 14:31


摘要

在大数据时代,如何进一步弥合数据鸿沟、防止数据“霸权”的滥用,将会成为一个重要新的课题。热潮之下,对大数据的反思,还需要不断深入,才能让我们保持清醒的头脑。

2

1

7

身处大数据热潮中,既要充分认识大数据的潜力,积极把握技术进步带来的机遇,也要认清大数据的局限性,警惕大数据万能论。一些被广泛传播的经典案例现在被证明是子虚乌有,比如,啤酒与尿布的故事实际上是 Teradata 公司的工程师 Thomas Blischok 在 1992 年杜撰的,从来没发生过;而 Netflix 号称用大数据分析帮助自制剧《纸牌屋》取得成功,而实际上是把大数据作为公关活动的噱头。当前,以下几点值得思考: 

第一,大数据尚难对人的行为做出精确预测。在大数据是否能准确预测人类行为的问题上,还存在重大分歧。《黑天鹅》指出人类的行为不可预测,而《爆发》一书则根据对以往历史经验的总结,指出人类行为 93%可预测。麻省理工学院教授罗伯特• 莱格伯恩(Roberto 

Rigobon)称,虽然华尔街一直重视数据分析,但基于海量数据分析的对冲基金在全球都是失败的。“对于人和事件,如果放到越大的空间和时间范围,则是越可以精确预测的。如果放到越小的空间和时间范围,则是越不可以精确预测的。例如,我们几乎可以在 100%的程

度上预测一个人在 24 小时的时间范围内会吃饭;但若精确到某一分钟,则几乎不可能预测准确。”大数据无法预测人类行为,归根结底还是因为人具有“自由意志”,人会根据预测结果(如下个月的股票价格、明天的交通拥堵情况)改变自身行为,从而使得预测失效。

第二,大数据相关关系不能替代因果关系。舍恩伯格在《大数据时代》中说:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声”,“相关关系能够帮助我们更好地了解这个世界”。追寻相关关系和因果关系,是人类思维的两种重要方式,而用大数据进行预测往往依靠相关性,也就是说,很多情况下知道“是什么”即可,不必知道“为什么”。相关关系的运用在互联网推荐、精准广告等方面得到了实际应用。然而,在很多时候,如疾病诊断、工厂故障分析等场景下,需要根据确定的(或置信度非常高的)结论来决策,仅凭相关关系是远远不够的。换言之,大数据中的相关关系应用,需要区分场景,有时候数据无法自己说话,需要追本溯源。 

第三,大数据来源不均衡会让数据“说谎”。有人说数据不会撒谎。实际上,如果忽视数据来源的不均衡性,数据分析结果就会“骗人”。中国互联网络信息中心 2015 年的统计数据显示,我国网民城乡分布严重不均,农村网民虽然迅猛增长,但仍不及城市新增网民数量的1/10。社交网络的用户的性别分布也同样有很严重的倾斜,腾讯公司 2015 年年初的报告显示,微信用户的男女比例为 1.8:1,男性用户约占了 64.3%,而女性用户则只有 35.7%。如果利用网络大数据进行民意调查,却不把样本分布的不均衡性考虑进去,就可能使得某些群体未得到充分代表,而某些群体因使用率高,其意见或特征被过分放大。这种不均匀的数据来源会导致分析结果存在偏见和盲区。

第四,大数据无法消灭信息不对称现象。有人说,大数据有助于消灭信息不对称。虽然从全社会看,大数据的全面采集和融合应用有望在局部缓和信息不对称程度,但是在互联网世界中,马太效应很显著,拥有大数据资源和掌握大数据分析能力的企业,往往会在大数据时代占据更加有利的地位、占有更多数据,从而更容易形成一批数据寡头,产生新的不平等,造成新的信息不对称。因此,大数据无法消灭信息不对称,反而更有可能助推数据寡头的出现。如果这种数据垄断地位被企业滥用,将会威胁个人、企业甚至国家利益。因此,在大数据时代,如何进一步弥合数据鸿沟、防止数据“霸权”的滥用,将会成为一个重要新的课题。热潮之下,对大数据的反思,还需要不断深入,才能让我们保持清醒的头脑。

内容来自中国信息通信研究院



最新发布