关于大数据,不同的书和不同的作者可能会有不太完全相同的定义。比如,有的学者认为:所涉及的资料量规模巨大,无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。而维克托认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。但关于大数据的内涵都是一致的。
《大数据时代》给人印象最深的就是大数据时代的思维变革,它要求我们作出三个重大的思维转变:第一,研究的数据量巨大,我们不再追求精确度,取而代之的是包容混杂性。这是一个信息爆炸的时代,各种各样的数据浩如烟海、样式繁多,只有少量数据是结构化的且能适用于传统数据库,而更多的数据是非结构化的,只有接受不精确性包容混杂,我们才能利用这更多的数据,才能打开通往大数据时代的窗户。至此,我们也不再需要那么担心某个数据点对整套分析的不利影响,也不再需要以高昂的代价消除所有的不确定性,只需接受它们并好好利用它们。还以谷歌公司为例,谷歌翻译系统很强大、翻译质量很高并且很灵活,就是因为它拥有一个更大更繁杂的数据库,它曾把它所能找到的所有翻译都放到了数据库,作为一个翻译的“训练集”。
第二,不是随机样本,而是全体数据。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,追求的是样本等于总体,而不再依赖于随机采样。不可否认,随机采样曾给我们带来莫大的帮助。因为在过去记录、存储和分析数据的工具不够好,我们只能收集少量的数据进行分析,而随机采样方法能让我们用最少的数据获得最多的信息,既能减少人力、物力、财力的耗费,也能节约时间。但随机采样也有许多固有的缺陷,它的成功依赖于采样的绝对随机性,而绝对随机性的实现非常困难,一旦采样过程中存在任何偏见,分析结果可能就会相去甚远;并且不适合考察子类别的情况。大数据得益于突飞猛进的数据收集、存储、处理和分析技术,能够避开采样的缺陷对数据进行深度探讨。
第三,我们不再热衷于寻找因果关系,转而更加关注相关关系。这是这本书里要求我们作出的一个一时半会儿难以习惯的思维转变。在大数据时代,我们更多的是知道“是什么”就够了,没必要知道“为什么”,因为有些东西不好解释也解释不清,我们不必非得知道现象背后的原因,而是要让数据自己“说话”。大数据的相关关系分析法更准确、更快速,而且不易受偏见的影响,更容易让们得到事实上的结果,甚至会有点出乎我们自己的预料,因为我们的预料大多是建立在经验和因果基础上的。
谈大数据,大数据要求我们分析的数据样本等于总体,那这么多的数据从何而来?远在信息数字化之前,我们就已经开始了收集数据和运用数据,数据的产生有两个必要条件,那就是计量和记录。只不过现在我们收集数据的方式更加多样化了,收集数据的范围更加广泛了。仅仅是通过传感器,各种压力、振动、温度、速度、方位等等都能成为数据。现代的社会,我们已经不在像以前一样受限于数据了,文字、图像、声音、视频都能成为数据,坐标、高度、方向、速度都能成为数据,就连互联网上的聊天记录和搜索记录也都能成为数据。这一切的一切只是等待着被分析、被挖掘、被利用。
金无足赤,人无完人,大数据势必也会存在自己的不足。首当其冲的就是我们的隐私问题,比如说“数据废气”使数据发挥了新的价值,能够针对我们的浏览记录推送个性化服务,但我们时刻都暴露在“第三只眼”之下——我们的购物习惯、网页浏览习惯、社会关系网被它们监视了,一旦泄露了怎么办。还有,大数据是不是过于依赖数据了,如果数据远远没有我们想像中的那么可靠怎么办。等等这些问题都有待于进一步解决。