大数据及其可视化
上QQ阅读APP看书,第一时间看更新

1.4.1 关联物,预测的关键

虽然在小数据世界中相关关系也是有用的,但如今在大数据的背景下,通过应用相关关系,人们可以比以前更容易、更快捷、更清楚地分析事物。

所谓相关关系,其核心是指量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

相关关系通过识别有用的关联物来帮助人们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率还是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。

通过找到一个现象的良好的关联物,相关关系可以帮助人们捕捉现在和预测未来。如果A和B经常一起发生,那我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,它们只能预测可能发生的事情,但是,这已极其珍贵。

在大数据时代,建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于人们经常忽略了它的创新性。当然,它的应用会越来越多。

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比如说,一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题。通过搜集所有的数据,人们可以预先捕捉到事物要出故障的信号,比如发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早发现异常,系统可以提醒人们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,人们就能预测未来。