
2.2 开放数据:传统信息壁垒的破局点
开放数据运动已在全球逐步兴起,各国政府、主要城市和地区都已经意识到开放的数据是一个具有巨大潜力的未开发的资源,是一个国家或地区的重要资产。从国家和区域的层面上看,进行合理的统筹规划,整合地方和部门的不同信息源,建设统一的数据开放门户,围绕社会需求逐步向公众开放免费、机器可读的数据集,鼓励第三方的机构或个人基于数据集开发各种应用程序,服务于政府管理、企业经营和大众生活,已成为大势所趋。
2.2.1 全球开放数据运动
根据英国开放知识基金会(Open Knowledge Foundation)的定义,“开放”(openness)需具备以下三项基本元素。
(1)非歧视性:数据若开放,则其对任何人都开放。
(2)机器可读性:数据若开放,则应是机器可读格式。例如对于表格数据,应该采用.csv,而非.pdf。
(3)开放授权性:数据若开放,则其对应授权条款应确保使用者自由免费访问、获取、使用、加值、演绎、复制、传播的权利。
随着互联网、移动互联网等的持续发展,政府、企业、行业组织和个人等都收集了广泛的、不同类型的数据。但是,人们对于各种经过官方处理之后的统计数据普遍持有一定的怀疑态度;而未处理的原始数据,大部分人又难以理解。人们逐渐意识到,这些庞大数据资源的妥善开放利用,将产生巨大的社会价值和经济价值。2010年4月,互联网之父蒂姆·伯纳斯·李在TED大会上号召大家把公共数据或私人数据共享,使更多的人能够加以利用,创造出有用的甚至是令人意想不到的结果,由此开启了“开放数据运动”。
开放数据是一种新的哲学理念与实践,它按照用户特定的需求和相应的协议、规则、框架,对数据进行采集、存储、发布、加工、链接等,以实现局域或全部数据可以被任何人自由获取、互通、共享、重用,没有来自版权、专利或其他机制的限制。
一般而言,开放数据具有三个典型特征:一是可获取性和可访问性;二是数据应当使用允许再利用和再分发的许可协议;三是普遍参与性,即每一个人都应当能够使用、再利用、再分发这些数据。由于开放数据概念在不断演变,开放数据还应该具备“互用性”,并基于此提出了关联开放数据(Linked Open Data)的概念。互用性的核心在于开放数据间的自由整合、关联能力,是体现“开放性”实际益处的关键,为数据的再利用和增值提供了可能。
根据数据所在领域以及数据主体的不同,可以把开放数据细化成许多分支,其中,开放科学数据(Open Science Data)和开放政府数据(Open Government Data)是当前最热的两大领域。特别是开放政府数据,由于总量以及种类庞大繁多,与民众生活密切相关;而且因为大部分政府数据本身受法律的规定需要公开,所产生的效益也最受关注。如无特别说明,后文中提到的开放数据一般均指开放政府数据。
如果将开放数据运动比作一场马拉松,那么开放数据运动的前半程则完全由政府透明化在推动。事实上,最早开启开放数据运动的美国就是以2009年奥巴马签署的《开放政府指令》(Open Government Directive)为基础,朝着让政府更透明、让民众更好地监督政府运作的方向,推进开放数据的发展。在这个过程中,政府预算、政府支出、政府选举3项数据是开放政府数据计划中的重点对象,因此美国奥巴马政府在2014年进一步推动了《数据法令》(Data Act)的通过,从而加强了政府预算和支出数据的开放。
美国自然不是唯一通过开放数据实现政府透明的国家。根据开放政府伙伴(Open Government Partnership)计划的记录,目前全球共有超过60个国家加入了伙伴计划。而作为伙伴计划成员,需要承诺的便是开放政府数据,从而通过数据开放实现政府的透明化,帮助民众问责政府。
从2009年起,美国、英国、加拿大、新西兰等发达国家政府相继宣布了其公共数据开放计划。据美国网站Data.gov的统计(见图2.3),截至2013年8月,全球有43个国家、160个地区已经上线开放数据或者开放政府信息的相关站点。美国、英国、加拿大和法国是开放数据的先行者,且数据的可用性较高;新加坡、丹麦、意大利、新西兰等国是追随者,处于第二梯队;澳大利亚、爱沙尼亚等则处于起步阶段,处于第三梯队。

图2.3 全球开放数据主要参与者及其角色
2013年6月,八国峰会(G8 Summit)期间签署了《八国集团开放数据宪章》(G8 Open Data Charter),简称《G8开放数据宪章》,标志着开放政府数据已经成为全球共识。
相比国外的开放数据进程,我国的开放数据起步略显滞后。根据复旦大学国际关系与公共事务学院副教授郑磊在《中国开放政府数据平台研究:框架、现状与建议》中提供的数据,截至2015年5月,我国各地开放政府数据实践共计发布了1963个数据集,其中开放数据集最多的是武汉(635个),最少的则是贵州(17个)。
虽然各个国家开放数据特点有所差异,但总体上可以分为三个阶段:被动开放数据阶段(1960-2009年)、主动开放数据阶段(2009-2011年)和挖掘数据价值阶段(2012年至今)。
2.2.2 开放数据的社会化利用
开放数据运动产生于大数据汹涌发展的背景下并非偶然,因为政府数据的权威性、公益性和全局性,使之成为大数据发展的重要补充和落地应用手段。例如:芬兰的tax free项目和英国的where does my money go项目都向民众展示了政府如何使用税收;丹麦的folketsting.dk项目追踪议会动态以及立法进度,公众可以清楚地知道议会发生了什么,哪些议员参与其中;ODI的商业计划中提到,加拿大政府靠开放数据挽救了32亿加元的慈善税收因诈骗造成的损失。
开放数据能够成为公民监督政府的有力工具。例如:美国加州政府就将金融危机的纾困款项公之于众,居民可以上网浏览每个地方行政单位所得到的经费。
开放数据的实施有利于提高政府部门之间协作的效率。开放数据的包容性打开了政府内各部门、政府与民众之间的边界,信息孤岛现象不再存在,数据共享成为现实。一方面推动了政府各机构开放创新,政府各部门开展业务数据分析,发现数据背后隐藏的模式和微妙关系,用新思路、新方法、新举措破解经济社会发展过程中遇到的各种问题,也成为创新的主体。另一方面政府各机构提供数据、问题和激励,邀请社会公众共同解决问题,通过众包的形式激发了大众的智慧,推动了社会创新。
以美国纽约市为例,2012年2月纽约市通过了《开放数据法案》,当年3月由市长迈克尔·布隆伯格签署后正式生效。这是美国历史上首次将政府数据大规模开放纳入立法。之后随着详尽犯罪记录数据的开放,不仅开发出了提示公众避免进入犯罪高发区域和提高警惕的手机应用,从而降低了犯罪发生的概率;而且还能将犯罪记录信息和动态交通数据结合起来,起到指导调配警力的作用。公共交通系统的动态数据公布后,随之许多学者和商业机构分别对其进行深度挖掘,不仅创造出了手机应用,为公众出行提供实时建议,而且为地铁系统在客流高低峰时段对热点站和普通站之间的调配提出了更优的方案。这在原来警察局或交通部门各自垄断数据的情况下是不可想象的。
开放数据一方面推动传统企业转型,另一方面也催生了许多新的中小企业。例如:丹麦的husetsweb.dk可以帮助用户找到提升家庭能源使用效能的方法,包括提供财政规划和联系施工承包商;英国的Mastodon C、Carbon Culture和Honest Buildings等都是利用开放数据提供服务的创新企业;Google翻译服务使用了海量的欧盟多国语言文档来训练其翻译算法,进而提升了服务质量。
美国的Zillow公司作为一家市值30亿美元的公司。它创建了一个在线房产交易平台,供房屋产权人、购买者、售卖者、租赁者、中介、出租者、贷款经纪、房产经理等发现并分享房产及周边相关(如贷款)信息。整个平台由一个记录了超过1.1亿条美国房产记录的数据库驱动,这个数据库中既有挂牌出售的房产信息,也有未挂牌的房产信息。Zillow将美国政府开放的土地交易记录、房屋交易记录、房屋整修记录、治安状况等有关社区状况的开放数据整合进原有平台,建立了更为合理的房屋估值模型。
美国的Climate Corp公司于2013年10月被Monsanto公司以9.3亿美元收购。它利用美国政府免费开放的60年农作物收成数据、美国超过100万个气象监测站的气象数据以及14 TB的土壤质量数据,为农民提供农业种植和金融决策辅助信息。它的一款主打产品是“全气候保险”,这款保险产品将在系统预测有恶劣天气时自动赔付农民的损失,而不需要农民举证实际损失。Climate Corp公司是2006年由两名前Google公司员工创建的,它每天要利用从22个数据集中经过高级数据分析产出的300万份数据资料。这些数据来自不同的第三方机构,比如美国气象局,并且这些数据都是免费、自由重复使用的。
美国的Mastodon C公司成立于2012年4月,可帮助企业运行一个可定制的零碳云基础设施,并通过先进的分析建议帮助其客户释放数据的潜力。其创始人Francine Bennett认为,开放数据对创业企业的价值是难以估量的。Carbon Culture提供数字服务,可帮助企业加强沟通,实现员工参与和直接节约能源,使其转向可持续发展。
美国的ITriage公司是一个初创企业。它由一个急诊室医生创建,目前雇用90个员工。该公司的主要业务是,运用从美国卫生与人力资源服务部(HHS)下载的关于健康医疗提供者的位置和特点信息,开发一种移动应用。这种应用可以帮助800万民众发现满足其需求的、最适合的当地医生和医院,从而帮助人们挽救了生命。
美国的OPower公司的业务是运用政府发布的有关能源使用、天气和能源设备效能的数据,为客户提供节约能源的个性化建议。该公司目前雇用员工200多人,已帮助居民客户节约1.4小时能源时间(相当于一个小城市全部家庭一年的用电量)和1.65亿美元的能源。
2.2.3 开放数据的推进模式
1.发布机器可读的高价值数据和推动数据的开发利用是开放数据的两大重点
开放数据要满足几个条件:一是每个人都可以获取,二是机器可读,三是不需要成本就可以获得,四是对数据再使用和分发没有限制。可见,开放数据的关键是更多的信息发现和信息利用。因此,开放数据并不是简单地将数据电子化、格式化,怎样降低获取数据的难度和提高数据的再利用程度才是核心。
从国外开放数据的发展阶段来看,当前开放数据的先行国家其工作重点可以概括为以下两个方面:一是注重以机器可读的方式,优先发布高价值的数据;二是注重数据的开发再利用,采取一些激励措施,激发企业家和创新者利用开放数据开发更多的应用,从而挖掘政府数据的潜力,积极促进经济增长和创造新的就业机会。
2.建设统一门户,逐步开放数据集
从全球范围来看,建立统一的政府开放数据门户,集中开放可加工的数据集是各国数据门户网站的一个普遍做法。各国数据门户网站域名中都普遍带有“数据”和“政府”字样,如data.gov(英语)、datos.gob(西班牙语)等。在门户网站上,重点开放机器可读的数据集(datasets)、应用程序(APPS)等资源,有些数据门户网站上还设置了供开发人员参与和公众反馈的专栏。
在全国范围内建立统一的开放数据门户是各国通行做法,但是由于国家间的差异,有些地方和部门也建立了单独的数据开放门户。例如:新加坡采用的是统一数据门户网站data.gov.sg,截至2014年2月10日,门户网站上开放了68个部门的8733个数据集,实现了全国范围内的整合;美国的数据门户data.gov在2014年1月全面改版,截至2014年2月10日,网站上共开放了88137个数据集、349个应用程序、140个移动应用,参与的部门达到175个。
除了在国家数据门户上整合了部分州、地方政府的数据集外,美国还有40个州、44个县市建立了单独的数据门户。美国的数据开放格式多达46种,其中应用最广的格式是HTML、ZIP和XML三种,数据集分别有20775个、12517个和11992个。英国除了全国统一的数据门户网站外,伦敦、曼彻斯特等地以及索尔福德市议会等16个地方和部门也建立了独立的开放数据门户。在英国的数据开放门户网站(data.gov.uk)上,共开放了13670个公开的数据集以及4170个非公开的数据集。
各国开放的数据集以CSV、HTML、XLS、NII、PDF等一种或多种格式出现。在印度,目前使用的是全国统一的数据开放门户网站(data.gov.in),共开放了5811个数据集,共有58个部门和4个州参与,开放了24个应用程序;在5811个数据集中,以XLS格式开放的有1793个,以ZIP格式开放的4个,以CSV格式开放的2087个,以HTML格式开放的有30个,以XML格式开放的有1897个。
3.围绕民生的地理、交通等领域最先取得成效
数据开放运动的一个核心目的就是更好地满足公众的需求,通过政府开放数据,促进公共服务领域提供更好的服务,通过政府数据的免费使用来带动创新,创造出一些有助于大众更好地适应现代生活的实用工具和产品。
2013年6月17~18日,美国、英国、法国、德国、意大利、加拿大、日本和俄罗斯八国领导人在英国北爱尔兰厄恩湖举行了2013年八国峰会。会议围绕全球经济增长与就业、开放贸易、税收体系、土地交易、开放数据、粮食安全、气候变化、反恐问题和外交政策等展开讨论,同意在扩大自由贸易、打击跨国企业逃税避税、提高政府和商业运作透明度三个领域采取行动,并发表了联合公报和声明。会议期间,八国认可了《八国集团防止公司信息滥用和立法安排主要行动原则》,签署了《八国集团开放数据宪章》,并将上述两个文件作为附件列入联合公报。
《G8开放数据宪章》明确了开放数据的5大原则和14个重点开放领域,其主要宗旨是推动政府更好地向公众开放数据,挖掘政府拥有的公共数据的经济潜力,促进经济增长,激发创新,以及加强责任感。《G8开放数据宪章》及其技术附件的关键要点请见本书附录B。
从各国开放数据门户情况来看,围绕民生需求的数据在开放数据中比重最高,也颇受用户欢迎,但是民众关注的热点与国家的社会体制和经济发展情况密切相关。如:美国新版的数据开放门户,将原来的金融、企业、农业、海洋和安全等六大类数据集拓展至农业、消费、教育、能源、金融、地球空间、全球发展、医疗、就业和技能、公共安全、科研、气候、企业、道德、法律、制造、海洋、州、市、县等二十大类,与民生需求相关的数据集普遍增加。
在加拿大,下载量最高的十个数据集中有九个来自加拿大公民身份与移民局,包括永久居民的申请流程和时限、永久居民的分类、等待中的永久居民申请等。在新加坡,阅读量最高的数据集为人民协会总部、3G移动用户数、各运营商3G移动通信服务平均速率。在印度,下载量最高的数据集为电子和计算机科学的技术发展、印度国防研究与发展组织的热成像产品、国内储蓄及构成占GDP现价的比例等数据集。