大数据技术与应用基础
上QQ阅读APP看书,第一时间看更新

1.1 大数据的发展

近年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。互联网(社交、搜索、电商)、移动互联网(微博、微信)、物联网(传感器、智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂地产生数据。Google上每天需要处理24PB的数据;每个月网民在Facebook上要花费7 000亿分钟时间,被移动互联网使用者发送和接受的数据量高达1.3EB;百度目前的总数据量已超过1000PB,每天需要处理的网页数据达到10~100PB;每天亚马逊上要产生630万笔订单;淘宝累计的交易数据量高达100PB;Twitter每天发布超过2亿条消息,新浪微博每天发帖量达到8000万条;每天会有2.88万小时的视频上传到YouTube;中国移动一个省级公司的电话通联记录数据每月可达0.5~1PB;一个省会城市公安局道路车辆监控数据3年可达200亿条、总量120TB。根据国际数据公司(IDC)的检测,人类产生的数据量正呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持,意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。根据IDC的测算,到2020年数字世界将产生35 000EB 的数据。行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。

前些年人们把大规模数据称为“海量数据”,但大数据(Big Data)的概念早在2008年就已被提出。2008年,《自然》杂志出版了一期专刊,专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出了“Big Data”的概念。