大数据挖掘技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.7 大数据思维

近几年,智能手机正在悄然改变着人们的生活习惯,购物、理财、社交、娱乐、健身、学习、查阅,智能手机似乎无所不能。有些人甚至可以连续数日宅在家里独自与手机为伴,似乎一机在手,别无他求。这些巨大且深刻的变化如润物细无声般改变着人类社会,也因此带来了一些观念上的改变。

事实上,大数据时代确实给数据处理理念带来巨大冲击,主要表现在如下三个方面。

1. 要全体不要抽样

以往因为数据采集能力不足,通信流量受限,数据存储和处理能力低下,进行大数据分析时通常只能采用抽样分析的方法,因此很难全面、准确地反映全体数据的特征。如今,数字通信技术和计算机技术的飞速发展,使得数据处理能力发生翻天覆地的变化,已经有能力处理全体数据了。

2. 要效率不要绝对精确

小量的样本数据因为需要代表全体成员,所以样本数据的细微误差可能演变成不可容忍的错误。相比之下,海量数据比采样数据更有能力容纳不精确的数据。事实上,来自现实世界的各种数据本身不可能是完美无缺的,大量数据中一定包含一些错误的数据。在大数据处理中,很多问题的答案并不是只有一个,但要求能够及时给出答案。例如,利用互联网搜索引擎查询资料,用户希望能够快速查到想要的结果,查到的结果往往有多个,用户并不在乎这些结果多么精确,因为用户自己有鉴别能力。

3. 要相关不要因果

以往我们的学习研究要求是“知其然且知其所以然”。这样究其根源的学问态度使得学习成果更加牢固,研究成果更加深刻。但是,在大数据时代,因为数据源源不断地产生,很多情况下及时处理数据已经应接不暇,深究数据之间的因果关系实在是难以完成的任务。事实上,在数据之间的相关关系中蕴含了很多非常有价值的东西,有些甚至是我们从来没有意识到的。这方面的例子在如今的电商个性化推荐系统中可以说是屡见不鲜的。了解相关关系比深究因果关系简单得多,而找出数据之间的相关关系正是大数据处理的强项。在大数据时代,我们可以改变认识世界的方式,让数据说话,更多地通过数据之间的相关关系(而不是因果关系)了解世界。而且在很多场景中,了解相关关系就足够了。例如,旅行者往往知道什么时候订机票可以拿到好的折扣,他不一定知道航空公司的机票销售策略,但这没有关系。

中国古代的很多谚语就是这种只知相关不知因果的思维方式所形成的。古时人们通过大量、长期观测和观察,总结出了很多相关的规律,但他们并不知道其中的原理,如气象谚语“早霞不出门,晚霞行千里”,哲理谚语“放虎归山,必有后患”等。当然也有一些谚语因为当年的样本不够,总结出来就成了歪理,甚至是迷信,如“左眼跳灾,右眼跳财”。