大数据的本质是什么


计算机考试 2019-10-12 23:43:39 计算机考试
[摘要]大数据的本质是什么篇(1):数据、大数据及其本质数据、大数据及其本质2015-09-14 10:47 来源:学习时报  我有话说作者:王克迪最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。数据与大数据技术进步,主要是计算机、网络和各种类型的传感器以及云

【www.shanpow.com--计算机考试】

大数据的本质是什么篇(1):数据、大数据及其本质

数据、大数据及其本质
2015-09-14 10:47 来源:学习时报  我有话说
  作者:王克迪
  最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。
  数据与大数据
  技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以这样描述:最近两年生成的数据量,相当于此前一切时代人类所生产的数据量的总和。
  大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。
  在大数据的上述特征中,其多样多变性值得特别关注。它表现为所生成数据格式的多样,如文字、图片、视频等各有多种不同的格式,取决于生成数据的技术与设备,却反映出数据生产的时代性以及数据处理的能力与条件,也反映出被描摹自然和社会的多姿多彩。另外,随着技术发展和数据量急剧增长,新的数据格式还会层出不穷,多变和多样特征更加突出。
  大数据既是一个技术概念,又是一个商业概念,它的出现,有其特定背景,即IT领域的商业和渲染新技术的考量。大数据包揽了人类获取数据的所有途径,提示哲学研究一个全新时代的到来,这个时代的先声,很久远之前就已经响起,那时,它仅仅被称作数据。在我们的讨论中,主要考虑数据与哲学的关联。
  数据与认识
  这里的认识,指的是人的认识,是人对外部世界的认识。
  大数据的出现和引起关注,使得一个事实得到确认,这就是,数据覆盖了人类对于外部世界的感知。感官及其所获得的经验退居到显示屏之后,退居到各种类型的技术装置之后,这些装置将自然和外部世界的映像“转译”成人类感官可以接受的图像、声音甚至触觉和嗅觉味觉。这既是技术发展的必然,又是始料未及的情况。如果说,此前,哲学还试图在技术系统生成的数据之外寻找世界的直观映像,到了大数据时代,这种人类的直接感知即使没有被完全取代,也失去了其传统意义上的优势。一言以蔽之,哲学,需要从数据中寻求对世界的认识,舍此即失去认识的来源。
  这似乎是一个惊人的变故,其实不然。在影响人类认识的议题上,大数据带来的变化,只是数量和范围上的,并非根本意义上的改变。事实上,回顾历史,我们发现,我们的对外部世界的感知,从来都是依赖于某些技术装置的,也就是说,人的认识,其实是通过数据获得的。
  最早的技术装置,可能是直尺,它用于测量长度,例如田亩;更早的述说技术装备,也许是绳结,它用来述说一件重要的事件。在我国,从河北泥河湾先民打造石器,到安阳殷墟龟甲上刻画的文字,都可以看作是某种“数据”,表达着人类对外部世界的某种认知。而面对着所有这些早期的承载数据的技术装备,人们获得对外部世界的某种最早的抽象认识。古代人先后发明过算筹、斗和称、漏刻、浑象仪、量角器等等,无不是用来产生认知外部世界的数据,人们也发明笔、纸张、雕版印刷术,也是用来记录和生产数据。依托所有这些,数据成为人们认识的依据,思考的源泉,表达的工具。
  近代以来,西方的技术和科学异军突起,望远镜、显微镜、六分仪、光谱仪、质谱仪乃至加速器、射电望远镜相继出现,成为人类认识外部世界的有力工具。这些技术装备产生的数据成为近现代思想的新的依托。到了当代,伴随着电子计算机的强大数据处理能力的出现,各种延伸和阔展人类感官感知能力的器皿设备层出不穷,终于完全或接近于完全取代人类对外部世界的直接感知,通过把数据呈现给人类,成为人类认识的来源。这就是大数据的时代。
  关键点在于,我们所知的世界,全部是数据表达的,其中一部分获得理解和解释,更多的只是数据,没有得到解释甚至没有得到关注,它只是像自在自然那样在那里,等待人们去搜索发现它,解释它,运用它。
数据与本体
  根据上述认识,似乎可以通过观察数据的形成和生产,来理解哲学与科学的在解释客观自然议题上彼此消长。
  在近代科学初兴时期,它并没有从传统哲学中分离出来,它被冠之以自然哲学。与之相并行不悖的,有哲学本体论和形而上学。后两者都是试图以某些观念描述和解释外部自然,寻求事物的本质,并在哲学领域合法存在。伽利略、牛顿等人推崇的使用先进观测和实验手段观察与调控自然,用数学述说自然过程。当这一切成为风气之后,哲学本体论逐渐衰退,哲学似乎放弃了对客观世界的描蓦和解释,让位于自然科学。
  最后一位试图运用科学数据来解释自然的哲学家是康德,他研习了牛顿的运动力学和天体力学,提出宇宙演化学说。然而,拉普拉斯在康德基础上,用物理理论和数学表述了星云说,在无限时空中的恒星和星系演化学说。拉普拉斯之后,科学之描摹自然优越于传统哲学得到公认。
  一般认为,在经典科学时代,哲学与科学在描摹自然方面的差异,在于是否运用数据和使用数学方法。今天我们发现,这并非全部问题所在。经典时代,直至大数据崛起的今天,自然科学的确在使用各种技术装备获得的数据方面占据优势地位,哲学则固守传统的概念分析和一般推理方法,这还是指的好的哲学。这与其说是哲学落后于科学,勿宁说人类获得数据的能力尚有不逮,给传统哲学留有施展余地。
  大数据的出现,包围了人类认知世界的所有方面,情况发生变化。在科学界开始讨论并实施“计算一切”的时候,同时也给哲学重新回到讨论本体打开方便之门。这里发生的变化是,数据成为认知的源泉,思维的质料;我们对世界的解释转变为对数据的解读,舍此无他。大数据的出现,使得我们发现,我们所知的称作外部世界的东西,是通过数据来呈现的,当我们寻求世界的本质和意义时,我们实际上是在数据中徜徉;当我们觉得有所发现有所体悟时,实际上是自觉找到了一些数据之间的关联。
  数据的物理学气质
  所谓物理学气质,指的是思考事物的本质,从原理层面上对事物的本质进行探究,揭示出事物的基本规律。当前备受热议的数据和大数据是否具有揭示事物基本规律的功能,可能还有待于观察,但是,数据,就其现象而言,似乎已经展示出某种物理学气质,考察这一特性,既有利于认识数据的本质,也有利于深化对物理学的认识。
  这里所说的物理学,主要指的是量子力学。
  众所周知,量子力学无论在理论上还是在应用上都获得巨大成功,在场论、粒子物理和天体物理学研究上都扮演者基础角色,在固体物理、半导体物理以及超导物理等应用学科上都有极出色表现。量子力学与哲学的联系,比其他任何自然科学领域都要来得紧密,其中最重要的就是认识论问题。
  量子力学发现,建立在测不准关系基础上的认识,受到基本物理原理的限制,客观世界原则上不可能真正被观察到,我们只能根据物理测量结果认识世界。而测量本身形成对客观世界的干扰,导致无法真正认清它的本来面目。所以,我们对于世界的认识,唯一来源就是测量的结果,即所谓经验。
  量子力学的这一认识原则引发将近一百年的讨论,至今未能平息。
  尼尔斯·玻尔认为我们必须接受量子力学给出的认识原则,承认和接受自然作出的安排,量子力学已经很好地描绘了自然;爱因斯坦则不愿接受玻尔的“绥靖哲学”,他觉得一定是量子力学本身的不完备造成,人对自然的认识应该是能够穷尽的,不可能也不应该像量子力学所描绘的那样。
  当我们回顾前述数据与大数据的认识论与本体论含义时,就明白,一直以来有关量子力学问题的争论,本质上就是对于数据的意义的争论。显然,爱因斯坦不愿意接受数据给出的结果,以及对于数据的解释,而玻尔则认为数据揭示的自然正是自然本体,无论我们是不是喜欢它。
  有趣的是,人们一直在争论量子力学的测量问题,此前却几乎从来没有人意识到测量的结果本身就是数据,而数据已经成为事实上的认识来源。离开数据,我们对于世界一无所知。
  在这个大数据时代,当我们认识到,数据正是我们认识世界的源泉,所谓世界其实就是数据构成的,我们也会看到数据本身所具有的物理学气质,正像量子力学所强调的那样,世界隐藏在经验表象背后,我们所能谈论的,只是经验本身
 
大数据带来弯道取直与换轨的机遇
月27日,大数据专家、观数科技创始人涂子沛、贵阳市委书记陈刚、北京浩瀚深度信息技术股份有限公司总裁张跃应邀做客《思客讲堂》,共同探讨大数据带来的新经济模式,数据如何开放与管理,大数据技术将给中国社会带来的挑战和新机遇等话题,现场讨论“火花四射”,各种精彩观点层出不穷。本次活动由思客与观数科技、北大国发院博士论坛联合举办。
开放数据,政府应该走在商业机构前面
  思客:BAT拥有大量的数据,而且是他们的核心竞争力。涂老师,您曾担任阿里的副总裁,假如您是马云,会开放数据吗?
  涂子沛:事实上,阿里一直在开放数据。开放数据首先是公共部门先开放,然后是商业机构。所以,公共部门应该做领头羊。贵阳在这方面做了很好的工作。 但是阿里不可能全部开放, 因为涉及到商业竞争,这部分数据是商业机构投资,然后他搜集的数据。他有所有权,所以他可以拒绝开放,可以封闭。但是开放有很多层次,可以说向整个社会开放,也可以向一个人开放。比如阿里向个人开放,我想看个人的消费记录能不能看,中国正逐步向这个方向前进。我希望看到的是公共部门在引领数据开放,而不是商业机构。如果是商业机构在引领中国的数据开放,那我们的公共部门就缺位了。
 陈刚:涂子沛的观点我是赞同的。政府在数据开放的方面应该走在前面。走在前面,我认为有两句话:第一,政府要搭建规则,搭建秩序,让数据有序的开放,让数据更安全的开放。第二,政府是目前社会最大数据拥有者,而这些数据来自于民,应当服务于民。在保护个人隐私的前提下,在保护社会公共安全的前提下,数据应当尽可能的开放。但是我们现在看到一个问题是什么?有不少的部门想开放数据,但是他不知道怎么开放。因为大家都知道,大数据是一个双刃剑,数据开放的同时意味着社会的风险。怎么样在数据开放的同时尽可能的保护隐私,保护社会的公共安全?这就是政府在数据开放中面临的一个问题。
  那么,我们贵阳推进开放,现在做三个层次:第一,先把政府数据开始共建,通过数据的共建,建立统一的数据标准和数据存放接口的互联,使得数据从产生开始就有共同的标准,共同的可使用的结构化的尺子。第二方面,可以实现政府部门数据的互通。现在出现许许多多的事情,就是因为政府之间的数据不通,工商填一个表,下一个部门还要填同样的表格。
涂子沛:开放数据首先是公共部门先开放,然后是商业机构。姚冠华/摄
  涂子沛:这是我回国亲历的一个事情。我租了一个房子去办证,拿了一堆的资料。现在政府把行政中心放在一起,柜台就是开放式的。我跟办电卡的说我要办电卡,他要我复印资料;我在这边办水卡的时候,那个人还要我再复印一套资料,这就说明这个数据完全没有连通。
  陈刚:他刚才讲的这个故事也不是贵阳的故事。实际上,政府部门之间数据要互通,我认为这是第二个阶段。最重要的阶段是政府的数据和社会共享。我认为最重要的一条,怎么样来共享,怎么样来有序的共享,怎么样共享产生的是正能量。
  在这个过程中,我认为政府需要探索数据有序开放的模式。我们现在讨论比较多的是抱怨政府数据不开放。其实政府有政府部门的担心,这个数据开放之后如果造成了隐私的问题,造成了公共安全的问题,谁来负这个责任。因此,数据开放需要一个加工再处理的过程。
  比如,把身份证号码、电话号码、住址去掉,然后把有价值的数据向社会开放。现在做的比较多的是停车场的数据,其实城市交通的数据就可以向社会开放。我知道有人比我的想法更聪明,如果用这些数据干一些不法的事情就会出麻烦。我们首先是契约式的开放。你是一个法人,是一个可以承担责任的人。我跟你签订约定,把数据有序的向你开放。你用这个数据可以服务于社会,也可以给自己的企业带来价值,这就形成有序的数据开放。
  政府的数据如何有效开放,现在还没有标准的答案和统一的格式。贵州作为大数据的综合试验区,我们有义务探索这个路径。
大数据时代,不要讨论所有权,而要讨论使用权
  思客:在数据有序构建的过程当中,政府在里面有很多协同的作用,包括很多政府部门和企业,您觉得这里面最大的难题是什么?
  陈刚:我觉得人类进入信息社会,大家都认为数据具有巨大的价值,甚至认为数据是未来社会的核心价值。现在围绕这个核心价值全链条的实现过程没有规则。比如,我作为淘宝的一般消费者,在淘宝上面买东西,我形成了我的浏览记录、消费记录,形成这个数据是谁的?阿里现在说是他的,我认为是我的。因为我花钱买东西了,即使我没有花钱买东西,我也花时间在网站上浏览。
  我们现在有一个共同的问题,数据的所有权归谁?我认为现在众说纷纭,如果一个东西的所有权都没有说清楚,价值链的产生谁来享有。人类社会还是很聪明的,现在有越来越多的共识,不要讨论数据的所有权是谁的,而是讨论这个数据的使用权是谁的。这个数据阿里发现了,阿里就有它的使用权,我想问阿里,你们下一次能不能把个人的消费数据在网上公布。我今天给淘宝提一个意见,淘宝在我们个人消费单子里面永远没有一个栏,计算累计消费的钱数,我想在软件设计当中有一个考虑,就想怕花钱太多不敢消费了。
  涂子沛:陈刚书记刚刚问的阿里问题,我可以反过来问陈刚书记,我在政府部门也留下了很多数据。那些数据我看到了吗?那些数据更加关键,是整个社会的基础设施,无数的商业机构。刚才陈刚书记说了政府是最大数据的拥有者,换句话说我们最大的数据就在政府,政府掌握了我们所有的数据,这些数据能分享给我们吗?我们今天也没有看到。
  还有,阿里巴巴其实做了一些工作。我们做的不够完美,但是我一直在做。每年年底的时候会出一个淘宝时光机,这件事情很了不起,把一年的消费记录全部分门别类做一个总结,有消费的总额。很多消费者拿到这个报告之后,有人反馈告诉我说,眼泪都流下来了,为什么?因为他一年的记录被精心的记录下来,精心的分析。数据能激活一个人的记忆,所有的记忆沉淀在那里,你的消费过程,可能花钱太多,有可能有喜悦,也可能有不高兴,在年终的时候看到一个这样的报表,所有记忆重现,给人感觉很好。我们要尽量做到“数据有温度。”
 
互联网伦理构架建立在数据共享的基础上
  陈刚:数据开放到底往哪里走,数据开放的规则和标准怎么制定,这不是阿里和贵阳市政府的事情,是全社会的事情。
  无论今天在现场,还是在互联网上的听众,你们在这样的社会中,也会有许许多多的信息泄露遇到的麻烦,事实上,这是全社会的问题。我认为在这个过程中,政府要发挥主导性的作用,就是政府来制定规则,引导秩序,甚至于应当在互联网建立伦理构架,这个伦理构架是建立在对数据的基本认识的基础上。所以,这一条路,我认为需要共同来探索。
张跃在现场提到,数据开放的核心问题是是否对开放者有利 陈杰/摄
  张跃:听了两位的讨论,深有感触。这正是互联网时代,包括大数据时代比较混沌的问题。我就说两点:第一,数据是谁的?这个非常简单,谁有能力就是谁的。你没有能力,就不是你的,你有能力就是你的。
  第二,数据的开放问题。这个问题既简单又复杂,如果片面的看就非常复杂,这里面有隐私问题和责任问题,而核心问题是不是对开放者有利,只要有利开放不是问题。
  商业有商道,社会上有伦理。可能有些问题也是我们这个社会共同承担的一个发展的历程。我觉得贵阳大数据的建立本身就是中国在互联网经济、大数据时代的一个路标性的事件,必定会成为历史的一个标杆的产物。
  我也特别祝愿,在中国大数据时代能够弯道超车,让我们民族在大数据时代能够把一些弱势,比如诚信、契约,把这个事干得更好,让世人承认咱们,中华民族确实很伟大,这是我的一个想法。
 
关联是大数据核心当中的核心
  思客:能否给大家分享一下您如何通过数据的挖掘,使之成为商业价值?
  张跃:我们是一家做互联网流量检测和流量数据采集,以及控制、优化的公司。目前来说,在中国互联网最高端,采集设备几乎百分之百是由我们提供的。低端的这些数据采集有很多家公司。浩瀚深度每天10个T以上是有的,这个数据很大,而且是不断地流淌着,存不下来,都浪费了。我的基本客户就是运营商,运营商现在也发现了这些数据是金矿。如果不断的流失掉,确实量太大。
  第二,这些金矿的挖掘是一种技巧。大数据里面是有黄金的,刚才二位都讲到骚扰电话、骚扰短信,恰恰是大数据应用的一个空间,也是我们大数据将来产品消费的空间。如果通过大数据,他知道你就要买这件东西,他还去骚扰别人吗?打电话是需要成本的,不光是电话费的事,还需要时间,还要雇人。假如大数据分析告诉他你要买这个东西,这样大数据产品就有了。
  我个人认为,这个通信时代,之所以要产生后续的大数据时代,就是因为他有产品空间,有需求。所以,在这方面我觉得骚扰电话、骚扰短信,恰恰是我们大数据未来的一个市场空间。不要忘记了,这就是我们服务的对象啊。
  所以,我在掘金的过程当中,帮助运营商发现的过程当中,找到一条把大数据变成有用产品的路,比如客户画像,数据安全保护,隐私的转换,隐私的脱敏等等。我们找到了这条路,但是很遗憾的是,大数据归谁啊?浩瀚深度太小了,我没有地方,挖掘出来也没有办法变成产品。我期待着,我们能够为社会做这些,我们把这个产品做出来,这个产品是什么?就是关联。关联就是大数据核心当中的核心,它就是金子。什么是关联?共享这个事看你出多少钱,不给钱是不能共享的。我觉得这个非常重要。
  Uber也好,滴滴打车也好,不给钱,给你坐车吗?共享的前提是优化。这里面有为客户服务的便利性、经济性、舒适性,甚至我的愉悦性,这是客户需要的,我觉得共享的前提还是要给钱。
 
痛客计划:分享痛点,寻找创业机会
  思客:陈刚书记,您现在打造的“云上贵州”非常有名气,这里面也有共享经济的问题。您建立这么多大数据的中心,现在产生的商业价值怎么样?
  陈刚:今天讨论的主题是共享经济。共享经济是互联网时代的一个重要特征,贵州省贵阳市抓住这个机会,利用大数据推动经济发展。刚才子沛讲了两个例子,纽约时报100多年的报纸怎么录入进去,他把它变成了验证码,让所有人用验证码进行录入。这是一个很好的创意。但是,产生这样创意的人并不多。能否把提出问题的人和解决问题的人分开,我认为这是未来创新的一个重要方向。
  事实上,杭州的图书馆也好,纽约时报也好,许许多多,包括今天在座的各位都会有问题。但是我们以往的思路是什么?你提出问题,你自己想办法解决。我们没有张总那个能力。但是贵阳推出了一个“痛客计划”,就是我不管能不能解决这个问题,把社会的痛点提出来,我就是痛客。这个痛点也许能解决,如果能,我当初提出这个痛点就是有价值的。
  比如刚才说的纽约时报100多年的报纸,可能许多的单位都有这个问题。我们搞这个痛客计划之后,把这个痛点提到这个痛客计划上,他不知道怎么解决,但是社会上有很多聪明人来解决这个问题。
  今天,我分享一个我自己的痛点,也是亿万消费者的痛点。我们知道今天中国发售的邮包,零售的商品应该是几十亿件。我现在也是淘宝和京东的消费者,我买完东西之后,每天或者每一次消费之后,都要考虑这个盒子怎么丢掉。现在每天消费了多少盒子?扔掉多少盒子?这也是我的痛点,也是社会的痛点。我们有没有可能,有一家企业,有一些聪明的人像发明集装箱一样,可以发明重复使用的小邮盒,这样来解决社会的需求。我相信这一定有人有办法。今天我借助新华网发布我的一个痛点,如果社会响应,我不要今天的知识产权。我告诉大家,如果今天网上的听众听了这个消息以后,请你们关注贵阳的“痛客”网站,你们去申请注册成一个痛客,不要自己去创业。你们把这样的想法提出来,我们给你加上水印,确认这个想法是你第一个提出来的。如果我们和一些有创意的人,像张总这样的人,找到解决方案,最终形成一个产业,你有可能是这个企业最早的不出钱的股东。
 
一个鸡蛋的故事告诉你政府如何平衡网络经济和实体经济
  思客:现在有一个说法,实体经济比较暗淡,互联网经济红红火火。而一个国家长远来看,实体经济是非常重要的。陈刚书记,您怎么平衡这个比例?
  陈刚:刚才子沛讲了一个观点,工业可以柔性制造,谈到工业4.0。现在消费也有一个消费4.0,但是工业4.0和消费4.0怎么连接,我认为现在一个重要的思路是要把中间的信息打通。有些打通,比如说商品的零售,像阿里巴巴这种模式,可以是跨区域的,甚至是跨国界的来完成。但是送鸡蛋这件事情,一定是在社区内完成。我们能不能把社区就近的生鲜超市和家里冰箱的物联网进行对接,这样就形成一个现实和想象的很好结合。所以我认为作为政府来说,我们做的事情不像他们两位那样出很多奇思妙想,我们需要做的事情就是把他们的想法,由政府搭建平台,让社会用利益驱动的方式实现整个链条的组合,这就是政府要做的事情。
  涂子沛:这个思路很好。这背后就是实体经济,它有一个衔接,在政府可能正是在这个时代不断往前推进。越来越清晰地看到,政府就是在虚拟经济或者互联网经济和实体经济的节点上能够发挥巨大的作用。
 
发现问题是人类的智慧,机器没办法做到
  思客:在未来的共享经济时代,更多的是机器替代人的脑力。现在有一种说法是中等收入或者越有知识的人群面临失业的风险越大,由此也带来很多社会上的问题,那怎么解决这个问题?
  陈刚:其实每一次科技革命都是在解放人类的麻烦,帮助人类找到更容易解决问题的答案。互联网大数据实际上是解放人的脑力,接着就产生了一个简单的逻辑关系,许多人会失业。就像我们在几十年前讨论要不要搞大规模化生产,现在看到很多生产线不需要几个人,从原来的手工作业变成规模化生活,确实会造成很多人失业,但是人类社会就是这样进步的,淘汰一个落后产业的同时,会让人产生新的创新动力,研究社会新的发展机会,所以大家去当痛客吧。
陈刚:淘汰一个落后产业的同时,会让人产生新的创新动力。姚冠华/摄
  张跃:人工智能也好或者科技发展很多奇思妙想也好,我认为逃脱不了三要素:生产力、生产关系和生产资料,只要人们正确的对待它就行。AlphaGo再厉害,是工具,毕竟不是人。所以你把它当做工具,一切烦恼都没有了。如果你把它当做人就出现了比如伦理等很多说不清的问题。所以人们有的时候在区分工具和人本身之间,有时候在这一点上是模糊的。所以人有幻觉,会得病,会抑郁。在这方面来讲,人还是要回归本质,机器是我们创造的工具。
  涂子沛:AlphaGo其实真的不可怕,为什么呢?AlphaGo就当不了痛客,它不会发现问题,它只会解决程序化的问题,它解决的每一个问题都是程序驱动的,而发现问题才是人类的智慧。要把发现问题的人跟解决问题的人分开,有些人发现问题,有些人解决问题。那我们人类去发现问题、去定义问题,这是机器没有办法做的,因为这些都是新的,要发现新问题、定义新问题,有一部分问题,重复性的,比如打字员的工作,借书采购员的工作,就可以让AlphaGo去做,实现人类的跃升。
  我现在就很想做解决问题的人,比如今天刚刚说的这些问题,那今天就要解决,我们今天站在和世界同步的问题上,美国也面临这些问题,那这些数据到底归谁所有?谁有所有权?谁有使用权?什么时候可以使用?怎么使用?这需要一个方案。刚刚陈书记见到我说你是大数据的布道者,但是今天不仅仅需要布道,还需要解决方案。这个解决方案会帮助中国去把握弯道超车、后发优势的机会,如果我们解决的好,那我们今天跟美国就站在同一个起跑线上了。
 
大数据带来“弯道取直与换轨”的发展机遇
  思客:您和张总都提到了弯道超车,您认为我们现在真的具备了一个弯道超车的机会和能力吗?
  陈刚:互联网、大数据给了我们一个特别的机会,我认为不应当简单把它形容为弯道超车。因为弯道超车意味着你比别人有更大的胆量,也有更大的风险。我们能不能换个思维,我们叫弯道取直,我们干吗要跟它一起弯道超车呢?我们能不能修一条直道,直接过去。所以在这个方面,我认为大数据、互联网给了我们中国这样一个机会,也给了我们这些后发达的,像贵州这样的地区一个发展机会。以前所有的工业文明要建立在物流、制造、金融等基础上,但是现在信息社会,人和人、国家和国家在网络空间距离上是相等的,也就是给我们这些后发达的地区一个新的发展机会。所以我认为贵州该采取的路线是弯道取直。
  涂子沛:不要错过贵州,不要错过贵阳,事实上是不要错过这个时代。今天讲的是弯道超车,弯道取直。我还想在这个基础上提出一个说法就是换轨,重新起跑。原来在互联网这个轨道上跑,贵州和北京相比可能是有差距的,可能差500米,老是追,它是追不上的。但是今天裁判员重新吹哨子,说你们不要跑了,换一个轨道,在移动互联网这条轨道上重新起跑。在这条轨道上,中国和美国、贵州和北京我们是没有差距的,可能5米都没有,完全是并驾齐驱。这就是今天中国的机遇,是一个换轨的机遇,就是从工业换到数据文明。
  版权声明:本文为新华网思客独家稿件,转载须注明来源为新华网思客。授权合作请联系[email protected]
新消费井喷  新需求待哺
——从大数据“画像”看供给侧改革空间
2016年04月30日04:56  来源:人民网-人民日报  
在大量传统产业去库存、去产能压力不减的背景下,影视娱乐、旅游文化、教育医疗等代表的新消费需求逆势井喷。来自中国银联、阿里巴巴、乐视等公司的大数据显示,供给侧改革空间广阔,以“软产业”带动“硬产业”,加速互联网科技融合,正有效改造提升传统产业,成为转型升级的有益探索。
  超过50亿张银联卡的消费数据显示,2015年消费增速最快的行业几乎都来自服务业
  汽车零配件行业的银联网络消费金额由2014年的264.1亿元增长至596.6亿元,同比上升125.9%,超过汽车销售行业0.6%的消费增速,反映出在汽车产业大规模增长结束后,居民的需求从获得汽车逐步转向维护使用汽车。
  物流运输行业(包括快递、货物搬运和托运)银联网络消费金额由2014年的100.4亿元增长至351.5亿元,同比上涨250.1%,增速较上年同期提高218.5个百分点。物流行业呈爆发式发展,网购“剁手党”功不可没。
  宠物行业(包括宠物商店和兽医服务)银联网络消费金额由2014年的17.5亿元增长至59.1亿元,同比增长超过237%。
  旅游需求井喷式增长
  联合国世界旅游组织预测,2016年中国仍将继续保持全球第一大出境游市场地位。国家旅游局、联合国世界旅游组织的数据显示,中国出境游人数和旅游消费已持续多年保持全球第一:2013—2015年,中国公民出境游人数分别为9819万人次、1.09亿人次、1.2亿人次,境外旅游消费总额分别为1290亿美元、1648亿美元、2495亿美元。
  中国银联网络消费数据显示,2015年主要节假日旅游售票类用卡消费增长迅速,其中春节、“五一"劳动节和国庆节期间,包括旅行社和景点售票的旅游类消费金额同比分别增长了88.2%、57.5%和41.2%。
  其中,2015年国庆节期间全国异地加油银联网络消费金额同比增长39.2%,比整体加油规模增速高出6.7个百分点。其中,青岛、西藏两地异地加油占比分别高达54.5%和58.5%。异地加油占比的提升显示出节假日期间居民自驾游逐步增多。
  在中西部地区,旅游消费需求也井喷式增长。以甘肃省统计数据为例,文化旅游是在经济下行情况下,唯一高速增长的产业,2014年和2015年,全省文化产业增加值增速分别同比增长25.7%、18.2%,旅游综合收入增速分别同比增长26%、25%。2015年,甘肃省文化旅游产业带动投资380亿元,拉动经济增长0.78个百分点,对三产的贡献率达到20%,带动全省新增就业8万人,乡村旅游帮助17万人脱贫。
  健康消费从“有病治病”向“无病预防”转变
  来自阿里巴巴的数据显示,近2年来阿里零售平台上医药产品、健康产品和医疗健康服务等健康消费高速增长,诸如基因检测、癌症筛查、孕产服务包等产品和服务需求快速升级,居民健康消费正从“有病治病”向“无病预防”转变。
  2015年“双11”,阿里巴巴平台以智能手表、手环为代表的可穿戴设备同比增长接近5倍,健康护理服务增长205%,健康和意外保险增长432%。据天猫医药馆公开数据显示,2015年“双11”期间,和睦家医疗80220元的“产前检查+剖宫产后顺产优惠套餐”成为天猫医药馆“双11”单价最高的商品;通策医疗服务旗舰店一天内就卖出500余颗种植牙。
  中国成全球增速最快、潜力最大影视市场
  据广电总局公布的数据,2015年我国电影总票房为440.69亿元,同比增长48.7%;全年观影人次12.6亿,同比增长51.08%。Imax首席执行官里奇·盖尔方德预测,中国将在2017年超越美国成为全球最大的电影市场。
  来自乐视的数据则显示,强大的内容版权库和内容生产能力,成为其向智能硬件进军的“引燃剂”。凭借10万集电视剧、5000部电影的海量内容,以及欧冠、英超、温网、环法、F1等在内的250多项赛事版权,乐视2013年初涉智能电视生产,当年便售出30万台,2014年售出150万台,2015年售出300万台,而同期中国彩电市场零售量同比增速仅为4.8%。据估算,乐视每1元影视文化消费,带动的智能硬件、网络流量、边看边买等消费接近100元。
  乐视提出“产业垂直整合将战胜传统专业化分工”的新经济观点,不仅实现了“软产业”带动“硬产业”,也有望通过硬件出口,带动文化软实力的出口。乐视网信息技术(北京)股份有限公司副总裁刘淼表示,通过智能电视占领欧美客厅,依托跨文化认同度较高的多类智能终端设备及互联网平台,以乐视为代表的中国企业完全也可以向欧美日韩等输出中国民族文化和价值观,目前,乐视投拍的《甄嬛传》《芈月传》等均在海外市场受到欢迎。
  新经济曙光初现  “抓新放旧”焕发生机
  发展新经济、培育新动能,是当前推进供给侧结构性改革的重要内容。财新智库与BBD(成都数联铭品科技有限公司)联合发布的中国新经济指数显示,今年开春以来,新经济脉络若隐若现、缓慢爬升。今年3月,中国新经济指数为32.1,即占整个经济的比重为32.1%,虽比2月的32.3下降0.2个百分点,但仍比2015年8月的第二高值上升了2个百分点。
  数据公司万得资讯对A股部分上市公司2015年财报分析也发现,住宿服务、商业服务、信息技术、科学研究、运输和零售部门等“新”经济企业,业绩表现明显优于建筑业、制造业、采矿业和房地产业等“旧”经济企业。
  “如果未来三至五年新经济的规模逐步扩大,足够抵消旧经济放慢带来的影响,中国经济可避免衰退式调整。”财新智库董事总经理、原花旗大中华区首席经济学家沈明高说,“"抓新放旧’应是未来政策的主基调。未来政策的重点在于:第一,加快改革政策落地,释放新经济的活力和潜力;第二,将资源配置向新经济倾斜,而不是过度依赖房地产业加杠杆;最后,加快培养创新型人才,提高新经济效率。”
  (新华社记者姚玉洁、王政、连振祥、杨毅沉、袁军宝、王攀、陈刚、王新民)
  《 人民日报 》( 2016年04月30日 05 版)
大数据如何改善社会治理:国外“大数据社会福祉”运动的案例分析和借鉴
热点聚焦吴湛微 禹卫华
发布时间:2016-1-18  发布人:本站  源自:本站
    
  基金项目:国家社会科学基金重大项目“群体行为涌现机理及风险辨识研究”(编号:11&ZD174);教育部人文社科基金一般项目“基于社交网络的老年人健康传播应用研究”(编号:14YJC860029)
  作者:吴湛微,上海交通大学媒体与设计学院讲师;禹卫华,上海交通大学媒体与设计学院副教授,上海 200240
  doi:10.3782/j.issn.1006-0863.2016.01.20  
  一、背景
  今年,国务院印发《促进大数据发展行动纲要》明确指出大数据将成为提升政府治理能力的新途径,提出:建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,…,推动政府管理理念和社会治理模式的进步。
  与此同时,国外学术界和政府管理部门近年来也发起了一项“大数据社会福祉”(big data for social good)运动。与我国的目标相似,该运动也尝试将大数据技术与社会治理相结合,以数据驱动的方式应对现代社会中面临的一些复杂问题,增进社会福祉。在政府层面,华盛顿、伦敦、慕尼黑、纽约等做了不少探索,成功运用大数据为政府治理问题提供了支持;在研究层面,ACM、IEEE等国际学术联合体设立了专题会议讨论大数据与社会治理的结合;在社会层面,企业、高校、公益组织等开始积极探索应用模式。我们认为总结这些初期探索的经验将有助于我国各级政府更快更好地发展大数据社会治理。
  此外,我们发现在目前与大数据政府治理相关的研究文献中,关于宏观层面和理论建构方面的研究已有不少[1][2][3],但涉及微观层面能对具体操作提供借鉴的案例总结还不充分。因此,本文尝试从案例研究出发,总结大数据可以改善社会治理的一些应用领域、模式和方法,以及实施过程中值得注意的一些问题,希望能为大数据社会治理实践提供更多可实际操作的经验借鉴和创新思路。
  二、案例选择和综述
  我们从公开资料中广泛收集了261个案例,并通过三次筛选最终总结了41个案例。
  通过对案例集的元数据进行统计,我们首先识别了目前国外大数据社会治理的主要关注领域,包括:(1)社会安全(31.7%),主要涉及治安、消防、食品安全、交通和灾害等,主要关注点是通过大数据实现安全事件的早期发现和介入、减少损害;(2)开放数据接口(17.1%),主要涉及通过可编程接口获取数据的方法,主要关注点是支持更多数据产品和数据服务的开发和应用;(3)城市建设(14.6%),主要涉及街道、公共设施等选址规划和维护,主要关注点是通过大数据提高城市建设的市民参与度和满意度;(4)社会保障(12.2%),主要涉及为弱势人群提供帮助,主要关注点是通过大数据发现最需要帮助的对象及整合可以提供帮助的社会力量;(5)儿童与教育(9.8%),主要涉及为儿童成长和教育提供支持,主要关注点是通过大数据更有效地分配教育资源或定位困难学生帮助其完成学业等;(6)就业与创业(7.3%),主要涉及为就业和创业提供支持,主要关注点是运用大数据识别供需不平衡并积极加以引导,如弥补“技能沟”等;(7)环境与可持续(7.3%),主要涉及降低能耗和污染,主要关注点是利用传感器等数据识别和排查污染和耗能高发地区,以便早期发现和介入。
  除去作为底层服务的开放数据接口建设之外,在应用方面,社会安全、城市建设和社会保障问题受到最多关注。合计约三分之二的成功案例来自这些领域,既说明这些问题急需解决,又显示了大数据可以在其中有所作为。
  三、大数据用于改善社会治理的模式总结
  通过对案例集的进一步分析,我们识别了国外大数据社会治理的一些常用模式,可以作为借鉴。
  (一)大数据开放,提高基础服务能力
  这一模式就是将已有的数据通过一个开放的网络平台免费提供给所有需要的人。开放数据不但可以给市民直接提供服务,也可以为其他政府部门、科研机构以及公益组织提供进一步整合和利用数据的机会,从而给社会治理提供间接帮助。因此,建设开放平台已经成为各国大数据社会治理的基础模式。根据开放数据统计中心(open data census)的统计[4],全世界已有97个国家或地区建立了开放数据平台,按照其评分中国目前排在57位,美国排在第8位,英国位列第1。从我们收集的案例来看,美英采取的方式都是各城市分别建设大数据开放平台并由国家常设机构统筹各地数据建立统一检索平台。以美国为例,纽约市的DataBridge平台、洛杉矶市的LAOpenData平台等分别负责各自的开放数据,而美国总务署负责全国层面的数据统合平台data.gov建设。这种以市为依托、以国家常设机构统合的模式实行起来比较灵活,但也有一些问题,就是各市和地区的数据平台建设因经济水平和当地政策的差异而产生较大差别。在最近的美国开放数据评分中,洛杉矶、纽约和旧金山是分列前三的城市,评分几乎是排名靠后的城市(如伯班克、休斯顿等)10倍以上。因此,也有一些研究者提出这种“数据沟”(data gap)的现象是不是会导致地区差异进一步扩大。[5]本文案例,无论是完全由政府自主实施、还是由研究机构、非赢利组织或志愿者参与开发,都使用了一种或多种开放平台数据源,其中17%的案例专门致力于开放数据平台的接口研发,体现出开放平台对于促进数据利用的重要价值。
  (二)大数据决策,实现科学决策
  这一模式将原始大数据加工成能解释、预测社会现象的精炼数据,用于帮助决策者掌握更全面的信息或更有力的证据,从而增强决策的科学性。通过分析案例集,我们发现有两类基本方法被大量使用。
  第一类是关联,即广泛收集可能与待解释现象相关的大量数据然后筛选出关联度最高的一组数据或计算成一个指标,以此为依据辅助决策。例如,为判断哪些建筑物容易发生火灾,纽约消防局筛选了消防、建筑、治安、经济、城市建设等多个部门的数据,从中找到60余个与火灾发生关联最大的数据,并以此为依据计算了建筑火灾危险指数。使用该指数,消防局派遣视察人员对高危区域进行日常排查,有效降低了火灾危害。此外,洛杉矶、旧金山等地利用用电、用水、垃圾和投诉等生活数据与居住行为的关联性来排查建筑非法改装和群租行为,为治安和建筑风险治理提供依据;芝加哥公共健康部门利用餐厅的历史记录、市民投诉、商业数据、周边环境等数据对餐厅的食品安全进行排查;伊利诺伊州使用医疗数据、孕妇群体的历史数据和地区经济社会数据来关联最需要帮助的年轻孕妇,提高社会福利并改善生育率,等等。
  第二类是预测,即根据现有数据预测未来可能发生的事件,并提前做好预案。例如,多地劳动部门根据就业、企业、经济和教育数据分析劳动技能的供需趋势,引导企业、就业者和教育者提前规划和实施技能培训、填补“技能沟”,以达到充分就业的目的。此外,波士顿教育部门通过成绩、投诉、奖学金和学生活动等数据来预测学生辍学的可能性并提前干预;芝加哥公共教育部门根据学生、学校和教师数据,结合地区治安、住宅、人口和经济发展数据预测辖区各学校的招生人数,并提前划拨公共教育经费;纽约将全市33万余栋建筑物分为2400类并分别预测了火灾发生情况和拟定针对性救火方案,有效提高了救火效率、降低了火灾损失,等等。
  在本文案例集中,有59%的案例为大数据决策服务,其中28%使用了某种关联方法,18%使用了某种预测方法,13%同时使用了两种方法。
  (三)大数据沟通,改善外部环境
  社会治理总体上有利于社会福祉,但也不可避免会对一部分群体带来短期利益的损失。大数据说服利用数据的客观性,以对公开大数据的呈现为依据,引导广大市民自行从整体和长期的角度进行理性思考和辩论,有利于获得更广泛的关注和支持,改善政府治理的外部环境。例如费城使用一种称为Textizen的应用向市民的手机发送短信通知目前正在制定的政策法规、并投递调查问卷,调查结果被作为施政的依据以可视化方式在网站公布,以求凝聚社会共识。此外,纽约市使用一种LBS应用让市民在地图上提出建议,以确定公共自行车租赁站的设置地点,获得广泛支持;佛蒙特州根据位置信息向市民推送粮食捐献政策和捐献点位置,说服市民捐献保质期内可能吃不完的食物,等等。
  大数据技术也可以用于收集社会数据,例如通过社交网络,了解群众观点,或改善群众关系,并有利于说服。Kosinski等发现仅通过社交网站(如facebook)的点赞数据即可推测用户的年龄、性别、种族、政治观点、宗教态度等,从而可以根据这些数据有针对性地投放精心设计的说服信息。[6]类似的方法已在美国大选中成功运用。
  在本文的案例集中,有15%的案例使用了某种形式的大数据沟通。
  (四)大数据群体智慧,弥补政府资源不足
  社会治理的政策设计和执行都需要大量的人力物力,一些任务可能极为细琐繁复,完全依靠政府力量往往难以完成或者效率不高。这一模式通过发动群众参与大数据建设,利用群体智慧(wisdom of crowd)来弥补政府资源的不足。群体智慧可以从数据、技术和人力资源等多个方面弥补政府的不足,对大数据社会治理起到极大的支持作用。例如,波士顿市经常下雪,消防栓很容易被雪埋住找不到而耽误消防任务。由于消防栓众多,日常维护光靠消防局显然人手不足。因此波士顿消防局开发了一个称为“认领消防栓”的应用,邀请居民认领一个住宅附近的消防栓,帮助除雪等日常维护,受到居民的积极响应。类似的案例有,英国借助群体智慧维护道路和附属设施;纽约发动群体智慧利用公共空间设计环境艺术和扩大绿化;芝加哥利用群体智慧帮助流浪汉和孤寡老人等。此外,多地政府以支持数据竞赛、工作坊和夏令营等形式发动高校研究机构、公益组织和有条件的个体自愿者基于开放大数据设计、开发数据产品和应用,服务社会,均取得良好效果。
  在案例集中,有多达82%的案例使用了某种形式的群体智慧,74%的案例中使用了高校、行业组织等提供的开源软件。
  四、推进我国大数据社会治理过程中值得关注的一些问题
  从上述总结来看,“大数据社会福祉”运动与《行动纲要》中提出的“用数据说话、用数据决策、用数据管理、用数据创新”思路不谋而合。所涉及的案例可以视为对《行动纲要》实现方法和操作细节的有益补充,因此具有较强的借鉴价值。此外,通过比较我们也发现了一些容易忽视的问题,值得在未来发展过程中给予关注。
  (一)既要重视数据变大,也要重视大数据变小
  由于自然和社会现象的复杂性和普遍联系性,要准确描述和解释各种复杂现象,就必须尽可能搜集相关的数据,这就导致了数据不断变大,从而产生了大数据。然而,数据变大并非大数据的最终目的而仅仅是中间产物,这是因为:过于庞大的数据无法为人类直接使用,也就不可能对人类决策产生帮助。因此,在数据变大的同时,还必须考虑让大数据变小的方法,以便于决策者使用。通过研究案例集,我们总结了两种让大数据变小的常用方法。
  第一种是从对数据的加工入手,包括对数据进行过滤、排序、压缩、计算等操作。经过加工,有时甚至可以用一个指数来表达海量数据的核心意义。例如,谷歌将无数搜索和人群活动数据加工为一个流行病指数、纽约将大量建筑和火灾相关数据浓缩为一个火灾危险指数等都体现了这一思路。只有将大数据加工到足够小,才能真正为决策者所用。
  第二种是从对数据的表达入手,主要是对数据进行可视化处理。以数字形式呈现,人类一次只能理解一个数据;但以图像形式呈现,人类一次可以理解很多数据。因此利用人类认知能力的特点,采用可视化形式呈现数据,也是让大数据变小的有效方法。在本文使用的案例集中,除去单纯的数据接口以外,有高达94%的案例使用了数据可视化。
  要用好大数据,数据变大(原始数据积累)和数据变小(数据处理和数据可视化)其实缺一不可,但目前我国的大数据平台仍普遍停留在能“大”不能“小”的状态。
  截至10月15日,我国的上海、北京、贵州三大数据平台分别提供491类、303类和22类(大类,未细分)开放数据,均仅提供数据文件。而美国洛杉矶、纽约和旧金山三个数据平台分别开放数据1187类、1250类和786类。单从数量来看,中外数据平台的原始数据相差并不大。但国外数据平台普遍提供数据排序、过滤、计算等分析模块和多种可视化工具,让大数据变小,便于理解和使用。相比之下,国内平台仅提供原始“大数据”,一般公众很难有效运用,导致利用率非常低。平均用户访问量的对比也证实了这一情况:国内数据平台的平均访问量只有数百次,约为国外同类平台的1/100到1/1000。
  (二)既要重视数据平台,也应重视数据应用和服务
  除了数据平台以外,大数据更有价值的一面是将数据深度加工后融入日常生活,这就需要开发多种多样的高可用性数据应用和服务。这些应用和服务可以增加数据平台的使用率,提高社会治理水平,改善人们的生活,并创造新的就业和发展机会。根据北京、上海、贵州三个大数据平台官方网站显示,各自的应用数量分别为15个、75个和6个。作为比较,仅2015年纽约市举行的NYC BigApps比赛就征集到452个应用。下载量的差距更大,最大可达数百倍。经过我们的分析,国内应用大多使用单一数据下载量的差距更大,最大可达数百倍。需求分析和界面设计也存在一些不足之处,造成可用性不高。此外,数据接口服务的差距也较大,如纽约市提供11种,而国内平台仅北京提供了1种。
  不解决好应用和服务的问题,重金打造的开放大数据平台很容易“空心化”,难以对社会治理和社会福祉产生应有的支持。这个问题应当引起重视。
  (三)有必要重视对群体智慧的运用和发展
  我国大数据平台缺乏应用的现状与未能积极利用群体智慧有很大关系。大数据平台建设主要是技术问题,可以通过一两个技术过硬的企业来完成。但大数据在社会各领域的运用则完全是另一回事,单纯依靠个别企业不可能理解千变万化的社会问题和群众需求。因此国外政府大数据治理过程中普遍尝试引入社会群体的力量来帮助收集数据、识别需求、开发应用以更好地服务社会,即群体智慧。目前主要有三种推进方式:
  第一种是政府自身发起大数据应用竞赛。例如,美国政府为了鼓励使用data.gov的开放数据,专门建立了challenge.gov网站,持续发布数据竞赛,最高奖励达2000万美元。除此之外,美欧各城市也经常发起数据应用竞赛。最早的一次是2009年华盛顿市耗资5万美元组织的政府开放大数据APP开发大赛,在30天内征集到47款应用。这些应用后来发展成为估值230万美元的各种软件产品。[7]
  第二种是利用高校研究机构学术优势开办工作坊、组织夏令营。目前,哈佛大学、芝加哥大学、华盛顿大学等高校都经常组织“大数据社会福祉”工作坊和学术夏令营并提供专项资金支持。这些工作坊和夏令营与所在地政府合作,全社会征集参与者,针对具体的社会治理问题设计开发了许多成功的数据产品,并普及了数据思维和数据产品的设计开发方法。
  第三种是号召行业组织和公益机构利用开放大数据。例如,www.drivendata.org等互联网组织面向社会福祉发起专题活动并提供奖金;Datakind、Bayes Impact等非盈利机构致力于推动大数据运用于改善弱势群体生活水平等,很好地弥补了政府和企业未能及时关注的一些社会问题。
  这三种方式中,目前仅第一种在国内得到过应用,且规模较小,未能引起社会关注。善用群体智慧,可以通过小投入牵动大收益,值得予以重视。
  五、结语
  本文的研究说明,我国的大数据社会治理还刚刚起步,存在很大的提高空间。但我国各级政府的执行力很强,只要能将建设热情和对成功经验的借鉴结合起来,相信我国的大数据社会治理一定能得到快速发展,并对提高全社会的福祉起到应有的推动作用。
  [参考文献]
大数据在应急管理中的应用
马奔 毛庆铎
2015年03月11日10:46   
基金项目:教育部哲学社会科学重大攻关项目“社会稳定风险评估与社会矛盾预防研究”(编号:11JZD029)。感谢匿名评审人和清华大学公共管理学院薛澜、彭宗超教授的修改意见。
作者:马奔,山东大学政治学与公共管理学院副教授、副院长,清华大学中国应急管理研究基地(北京哲学社科规划办资助)兼职研究人员;毛庆铎,山东大学政治学与公共管理学院硕士研究生,济南 250100
[摘要]当前大数据正在改变世界,而数据收集和分析则是提升应急管理功能的重要手段。在对大数据内涵和具体案例进行分析后就会发现,大数据在应急管理中的应用主要有大数据技术和大数据思维两种方式。在应急管理的事前准备、事中响应和事后救援与恢复的每一阶段都可以引入大数据的应用,每个阶段对大数据的应用程度也会因其需要应对内容的不同而有所差别。大数据的应用有助于提高应急管理效率、节省成本和减少损失。我国需要在大数据战略、大数据开放政策、大数据在应急管理中具体应用形式等方面做出部署与探索。
[关键词]大数据;应急管理;大数据技术;大数据思维
[中图分类号]F328[文献标识码]A[文章编号]1006-0863(2015)03-0136-07
欧美一些国家已经开始把大数据运用到应急管理中,并取得一定成效,当前国内实务界和学术界虽然开始关注大数据的应用,但相关研究还比较缺乏。本文根据大数据的内涵,归纳了大数据在应急管理中的应用方式和基本框架,总结了大数据在应急管理中的实践案例,期望对我国大数据在应急管理中的应用和研究有所启示。
一、大数据的内涵和在应急管理中应用的基本框架
关于大数据的内涵并没有完全一致的理解,如按照麦肯锡全球研究所(McKinsey Global Institute)的定义,大数据指的是超出常规数据库软件工具所能捕获、存储、管理和分析的超大规模数据集。[1]也有的从数据集的特点入手,界定了大数据的三个主要特点,即常用的3V界定:规模性(Volume)、多样性(Variety)和高速性(Velocity)。[2]舍恩伯格在《大数据时代》中反复强调:大数据是人们获得新认知、创造新价值的源泉;大数据还是改变市场、组织机构以及政府与公民关系的方法[3],强调以大数据技术为基础的新思维和新方法。
由于对“大数据”的认识存在差别,综合不同的定义看,“大数据”在不同领域内包含三层含义,可以分别从现实和技术两方面加以阐释:第一层意义上的“大数据”指的是数据的巨量化和多样化,现实方面指的是海量数据,技术方面指的是海量数据存储;第二层意义上的“大数据”指的是大数据技术,现实方面指的是对已有或者新获取的大量数据进行分析和利用,技术方面是指云存储和云计算;第三层意义上的“大数据”指的是大数据思维或者大数据方法,现实方面指的是把目标全体作为样本的研究方式、模糊化的思维方式、侧重相关性的思考方式等理念,技术方面是指利用海量数据进行分析、处理并用以辅助决策,或者直接进行机器决策、半机器决策的全过程大数据方法,这种对大数据的认知方式涉及到“大数据项目”或“大数据技术应用”的认知,并由此可以延伸出大数据视角下的应急管理方式。
大数据在应急管理中的应用方式分为两部分:大数据技术和大数据思维。大数据技术既包括诸如数据仓库、数据集市和数据可视化等旧技术,也包括云存储和云计算等新技术;而大数据思维则是从海量数据中发现问题,用全样本的思维来思考问题,形成了模糊化、相关性和整体化的考虑方式。[4]大数据技术与思维相互融合和作用,共同形成了大数据的应用,并对包括应急管理在内的很多公共管理领域产生了巨大影响。如英国皇家联合军种国防研究所2013年的报告提出,大数据的应用包含四个特征:快速的收集、分析、决策和反应机制;在分析和结论方面有极高的可信度;无论是在个人还是群体的行为预测方面都应该更有预见性和更高的准确度;重视数据和充分利用,最好是能够多次使用数据。[5]
按照突发事件发生的时间顺序,整个应急管理大致可以分为事前、事中和事后三个阶段,包括预防准备、监测预警、应急处置、善后恢复等多个环节。由于当前大数据在应急管理中大多处于技术应用阶段,并没有针对应急管理中大数据的应用进行严格分类,因此本文根据应急管理最简单的时间序列划分法,探讨了大数据在应急管理中事前、事中和事后应用的基本框架(见图1)。
当然,由于应急管理针对的事件类型不同,并非所有的应急管理领域都会涉及到大数据在三个过程中的应用。有时候可能并不需要进行数据的重新收集和硬件系统的整合,而只需要进行管理模式和思维的变化,就可以形成新的大数据应用方式,这也是大数据在应急管理甚至是公共管理应用中不同于纯技术导向应用的核心所在。
资料来源:作者整理
二、大数据在应急管理中应用的具体分析和实践
由于应急管理三个阶段的任务不同,且不同性质的突发事件也有发生机理和破坏方式的差异,针对不同突发事件进行应急管理时,所侧重的应对阶段也有所不同。如地震、海啸等发生突然,现场反应时间很短,进行“事中响应”非常困难,需要着重预防和救援;而森林火灾等预防困难,救援难度大,现场应对更为重要。因此,就需要根据突发事件的不同特点,在不同阶段应用大数据,可以起到事半功倍的效果。
(一)事前准备
在事前准备阶段,需要为大数据的应用进行相应的管理和设施准备。管理准备指的是与大数据管理、大数据方法相匹配的人事准备和管理提升。设施准备指的是大数据应用所需要的硬件和软件设施。硬件设施主要涉及新技术背景下的数据采集,而软件设施不但涉及到新数据的采集,也可以针对旧有数据进行分析和挖掘。
1.两个层面人员的管理准备
主要是对中上层管理人员和基层管理人员的培训和管理。中上层要进行相应的领导体制变革和知识培训,下层则可能要新设机构、增加专业技术人员和信息采集人员,并做好培训。为了响应大数据时代的到来,在管理层面,如美国政府在2009年任命了联邦政府首任首席信息官,负责指导联邦信息技术投资的政策和战略规划,负责监督联邦技术应用的有关支出,监管企业等,以确保在联邦政府范围内,系统互通互联、信息共享,确保信息安全和隐私,此外首席信息官还与首席技术官紧密合作来推进总统有关大数据应用的技术设想。[6]英国提出“相关部门必须重视大数据管理......需要任命两名三星上将担任“大数据”监督官,或者国防安全部门内部的大数据指挥官;这两名上将应该分别来自国防部和联合部队司令部,并分别负责两部分的大数据工作。”[7]而基层管理人员需要进行相应的培训。英国皇家联合军种国防研究所的“大数据化”建议帮助国防部门转变成为“大数据化”组织,对需要进行大数据化的部门安排培训,人员需要包括中层以下的管理人员和项目专家,即数据分析官;明确工业部门对大数据管理的价值和作用,包括作为后备力量和为国防安全领域提供专业技术人才。[8]
2.大数据应用的设施准备
设施准备主要指为大数据的应用提供基础设施,随着技术的不断发展,“传感器”将成为大数据应用中的重要一环。上世纪60年代以来,美国为预防风暴和海浪袭击而建立海浪检测系统。2005年,国家数据浮标中心在原有设备的基础上架设了大量新型海洋地理传感器,包括海浪流向传感器等。此项目传感器实时产生大量数据,用以实时监测海浪情况。按照该项目划分,全美海岸线被分为7个部分,每个区域的分支网路都是先独立布点,然后在区域联网的支持下,根据海浪运动的物理原理扩展联网。全部联网完成以后,整个监测网包括296个传感器:其中56个分布在远海,60个分布在大陆架外部,47个分布在大陆架内部,133个分布在海岸线附近,其中,有115个布点是2005年最新增加的布点,另外有128个布点刚刚完成海浪流向测量的升级。[9]这项计划产生极大的社会价值。根据数据统计,商业捕捞是全美最危险的职业之一。在2008年,该中心的报告称,该年度渔业从业者每十万人的死亡人数为155人,而全美所有行业的平均死亡人数仅为每十万人中4人。在渔业相关的所有死亡因素中,79%是由天气原因造成的,其中40%是由巨浪导致。[10]虽然无法具体统计海浪预测系统的预报拯救了多少人,但毋庸置疑的是,更好的实时海浪监测系统就意味着能救更多人。
大数据设施的准备还包括软件准备。软件的升级包括算法的更新,分析方法和数据处理方法的改进,多源数据的融合分析。在阿富汗,英军曾使用相关技术绘制一种“人肉炸弹地图”,将信息导入数据库,通过生物识别数据和图像来识别当地人口,判断关键信息,从而找出可能出现的恐怖分子。[11]在阿富汗战争最激烈的时期,美国国防高级研究计划局曾派遣数据科学家团队和可视化技术团队到阿富汗。在一个名为 “Nexus7”的计划中,这些团队将卫星数据与地面监控数据相融合,用以观察道路网中的交通流,以便作战人员定位并摧毁简易爆炸装置。[12]由于地面监控和卫星图像等硬件设备早为英美联军所部署,在阿富汗反恐作战中,图像处理技术、多源数据融合技术和可视化技术才是充分挖掘原有数据并使之产生价值的关键所在。
(二)事中响应
在事中响应阶段,大数据的应用能为政府、第三方组织或个人开展应急响应提供很大便利。对于政府而言,大数据化的应急管理意味着技术支撑基础上的融合与协作,它不但为协作带来很大便利性,也保证了日常业务连续性和应急处置及时性之间的平衡。对第三方组织或个人来说,大数据可以为应急管理提供更加便捷灵活的手段。
1.宏观和微观层面基于大数据信息流的多元应急合作
在宏观层面,整个应急响应可以分为决策指挥、现场应对和外界援助等三个层面,这之间以海量数据信息、高效计算能力和数据传输能力为基础,实现信息有效沟通和机器预测预判,进而帮助指挥部门协调各方、现场处置和救援、与外界通过信息沟通提供援助,实现多元化协作的应急处置(见图2)。
资料来源:作者整理
在微观层面,应对部门需要在应急处置和业务连续性之间保持平衡。大数据基础上的决策支持系统将成为强大的信息管理系统,能够做到实时报告,而且操作简易,能够同时集合多项关键指标的高效指挥决策辅助系统(见图3)。在大数据决策支持系统支撑下,交通、医护、警务、市政基础设施管理部门,需要及时沟通,为突发事件的处置提供有力的犯罪打击、充足的物力资源、及时的导航信息和必要的建筑图纸等。不同部门提供的信息,都需要纳入到大数据支撑的决策支持系统。如警务系统在接到报警后,将信息发送到决策支持系统,系统进行分析,确定事件的类型和位置,信息会在电子地图上显示,根据实践情况同时列出关键设备需求表,随后进行危机通报与应急响应。同时,交通部门将路况信息、可用资源和监控数据传输到决策支持系统,系统进行可视化操作,确定出通行路段和避免经过的路段,确定路线。医护部门根据决策支持系统的信息实时跟踪状态,可以有效调配可用资源,提高响应速度,与地理信息系统和地图系统相连以后,救护效率也会提高。
资料来源:作者整理
2.第三方组织或个人发布自发式地理信息
自发式地理信息是随着网络地图普及而出现的。普通民众可以在几乎没有相关专业知识的情况下,依靠自动或半自动的处理设备,使用地理信息系统绘制地图。特别在20世纪90年代以后,随着网络和GPS设备的普及,普通人进行定位和地图关联变得更加容易。这种方法在“大数据”概念出现之前就已有所应用。在谷歌的“我图”(My Maps)服务出现后,普通人也可以完成往常只有绘图师才能完成的任务。民众可以通过官方公布的坐标、自身获取的定位数据、或者网上未经证实的地理位置进行整理、关联、绘图,然后发布到网上。这一过程所使用的大多为开源数据,数据类型多样且大多非结构化。这种方法在应对南加州的森林大火时屡有应用,主要用来绘制火情地图以指导人们逃生和避险。
森林大火一直是南加州地区的梦魇,2007年7月到2009年5月期间发生的四场大火尤为惨烈。扎卡大火(Zaca Fire)始于2007年7月,持续两个月,这时居民主要依靠报纸、广播和电视新闻组成的政府信息系统了解火情,信息传递慢且获取被动。2008年7月,临近城市地带发生了盖普大火(Gap Fire),由无数帖子和网络相簿组成的自发式的理信息已经能为政府信息提供有益补充。到了2008年11月,圣巴巴拉附近的山上发生了“茶叶”大火(Tea Fire),网上迅速出现了各类自发式地理信息——文字报告、图片和视频。尽管谷歌没有立刻将这些信息整理发布,但是已经有一些当地报纸和社团组织办的网站来整理这些资料。同时一些志愿者发现,如果将搜集和编译后的分散信息整合进谷歌地图之类的电子地图,就可以制作出比政府信息还要方便快捷的灾害地图。[13]2009年5月,城市附近爆发杰苏斯塔大火(Jesusita Fire),许多组织和个人迅速建立了自发式地图站点,及时整合不断出现的自发式的地理信息和官方信息。政府公布的火灾边界图就是根据不断更新的市民报告做出的。在火灾后期,共有27个自发式在线网站,其中最广为人知的一个网站点击量超过60万。这个网站提供了许多灾害期间的必要信息,如火灾位置、疏散命令、紧急避难所位置等。[14]市民可以在政府通知之前自行选择撤离或采取防护措施。
由于政府信息缺乏良好的沟通渠道和证实信息的充分资源,所以其从产生到传递总是比自发式地理信息慢。尽管来自民间的信息也有可能产生错误,从而导致一些没有必要的撤离。但通过以上案例可以明显看出,自发式预报由误报而导致的不必要的撤离成本远比政府漏报的成本低,其应对灾害的重要意义也显而易见。[15]
在整个事中响应阶段,大数据的应用包括实时高效的数据信息收集、信息数据的迅速传递、多源数据集成处理、数据结果的可视化合成和最终实现机器或半机器化的辅助决策(详见图1)。数据收集方面根据应急管理主导者的不同有两种发展趋势:政府主导的专业应急管理团队信息收集逐渐专业化和高效化;以社会大众和社会媒体为依托的第三方应急管理力量则将信息收集方式发展为简单化和大众化的方式。信息传递方面大数据实时高效的特点要求信息传递方式不断创新,速度不断加快。数据的集成处理方面,根据大数据本身的特点,数据集成处理也具有巨量化、多样化和快速化的特点。可视化合成方面,应急管理所需的可视化结果必须简明直接和通俗易懂,第三方组织所使用的可视化方法还需要具有操作简便等特点。只有这样,大数据才能为事中响应提供快速而科学的机器决策或半机器决策。
(三)事后恢复与重建
大数据在应急管理事后的应用主要是在救援与恢复重建。目前在应急管理应用上比较新颖的是使用“分众(Crowd Sourcing)”的方式。“分众”是由大众通过网络分散完成工作任务,并通过整合后在网络上提供服务的一种方式。这个过程中使用的信息来源分散,体量巨大,并采取机器决策或半机器决策的方式利用信息。使用“分众”方法进行事后恢复与救援可以分为四个阶段:捕获信息,甄别加工信息、机器分析和迅速反应。捕获信息的方式可以是通过GPS定位发送自己的位置,也可以是通过社交网络发送某条文字信息。搜集到的信息会被汇集到分众平台上,这个过程可能需要机器与人协调完成。一些难以处理的信息会分配给志愿者进行加工,使之转变为计算机能识别的数据。如法语区内一条“推特”(Twitter)的信息可能并不适用于第三方软件处理,这时就需要志愿者先将这条信息翻译成英语,再将其中的关键信息提取分类,变得可为计算机处理。计算机会自动剔除无用和冗杂的信息,根据语义分析捕获含有有效信息的词条。随后,经过格式化的信息可以被计算机可视化或者作为统计资料加以利用,经过整合的信息可以发布在网上供众人浏览和使用。应急处置人员可以根据计算机的建议设计救援路线,配置救援装备,以最快速度抵达救援地点。
如2010年海地地震救援中,以“目击者”为代表的非营利网站利用“分众”方法起到了重要作用。总结分众式操作方法在应急管理中应用的流程图(见图4),可以看出,在灾害救援的过程中,需要有三个明确分工的角色完成整个操作:亲历地震的当地监测员、关联开放数据的网络操作员和救援组织中的信息官。
资料来源:作者整理
当地监测员通常是正在灾区的当事人。只要灾区当事人有一部能上网的手机,他就可以成为灾害应对活动中的一部分。当事人可以用多种方式发送求救信息,如推特(Twitter)或者脸书(Facebook)。推特可以通过话题标签将信息分类标注,经过分类标注的开源信息更容易被第三方识别和捕获。[16]
网络操作员通过捕获信息的第三方平台浏览到信息,并对信息进行处理。当求救信息是软件不支持的语言时,需要有另外的操作员(志愿者)完成翻译工作。随后,一条求救信息就可以被解析成几个不同的要素,从而由计算机进行识别和可视化。比如,“目击者”网站使用十个要素来描述一条信息,这些要素包括信息、标题、日期、位置(地点名称或者坐标)和需求等。这些要素是“海地目击者”团队设定的,每条信息中蕴含的需求都可以归入不同的类别中。然后,“目击者”报告平台利用CSV文档和简单信息聚合订阅(RSS Feed)的方式使得报告简易可读。最后,“目击者”还用一个交互式地图来公布实时报告。[17]
信息官指的是救援组织中负责搜集和处理信息的管理人员。信息官可以在网站上获取求救信息,从而迅速做出反应。信息官此刻至少可以确定目前急需的人道主义援助内容和地点。虽然开源信息的可信性并不能完全保证,但是,分众信息及其可视化在灾后最初的2-3天内,应用价值非常高。它可以用来指导灾情确认、救援实施以及其他可能需要协调的工作。[18]
尽管采用分众的方式对信息的捕获已经是非常便捷,但由于突发事件的紧急性,信息的实时接收与处理还是存在一定难度,分众平台上信息的真实性和准确性还需要确认,对信息官而言,如果能提前有时间学习平台的使用方法并了解其话语体系,灾后救援的效率将被大幅提高。目前,已有研究者通过相互关联的开源数据和分众处理的操作方法解决学习障碍、信息描述不清和真实性待定这三个问题。由于应急管理领域本身专业词汇缺乏且定义不清,在线共制平台的服务尚不完善,有时候也存在难以把信息官的数据端接入互联开源数据等问题。[19] 虽然该方法存在不足,按照目前的应用情况看,这种分众的方式潜力非常巨大。
三、对中国的启示
大数据的应用为我们提供了认识和解决问题的新思路,对中国有如下启示。
(一)制定国家大数据战略,加大对大数据投入
进入21世纪以来,特别是近年来,许多国家重视大数据在公共管理(包括应急管理)中的应用,并制定了国家级大数据战略。除美国的“大数据”战略外,澳大利亚在2013年8月明确提出了大数据国家战略并发布公共服务大数据政策[20];法国在2013年2月发布了《数字化路线图》,其中提到了支持大数据技术发展[21];日本在2013年6月正式公布了“创建最尖端IT国家宣言”,其中全面阐述了2013—2020年发展开放公共数据和大数据为核心的国家战略,旨在把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。[22]
许多国家还投入大量资金进行大数据研究,支持相关技术发展。英国在2013年1月宣布,将注资6亿英镑发展八类高新技术,其中投入1.89亿英镑用来发展大数据技术,以期在数据革命中占得先机。[23]法国则在2013年4月宣布,将投入1150万欧元用于支持7个未来投资项目,法国政府投资这些项目的目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。”[24]
各国的大数据战略表明,“大数据”并不仅仅是一个技术概念,它已经切实成为提高国家治理能力,改进公共管理水平乃至增强国家竞争力的重要因素。目前,广东省已经在我国率先试水大数据战略,并宣布要在近期开放一部分政府数据。[25]这是我国地方政府回应“大数据时代”的具体措施。但是相对于英、美等西方国家和日、韩等亚洲近邻而言,我国还没有形成完善的国家级大数据战略。
(二)制定大数据开放政策,逐步扩大数据共享范围
除了制定大数据国家战略外,还要重视制定配套的数据开放政策,如目前美国政府数据开放网站(Data.Gov)可供检索的数据集已超过10万项。继美国之后,很多国家也制定政策要求数据开放。可以说,政府数据公开与共享是大数据化改革的核心内容。2010年1月,英国政府建立的数据开放网站(Data.Gov.uk),除去地理信息之外,该网站建成之初便公布了3000多项民生数据。2011年4月,英国劳工关系部、商业部又启动了“我的数据”(MyData)项目,要求即使是商业公司收集的数据,如果记录的是公民个人信息,个人便有权查看和使用。目前已有十多家不同行业的大公司参与到此项目中。[26]
新加坡是亚洲地区的数据开放先行者。该国在2011年6月启用了新加坡政府数据开放平台(Data.Gov.sg),开放了60多个机构的8600个数据集,50%的数据是机器可读的。其中的OneMap是一个地理空间数据共享平台,目前有60多种不同的地图主题。利用这些数据,一些企业和政府部门已经开发了100多项应用,涉及停车信息、公共厕所、野猫管理等。[27]在亚洲,日本、韩国等国家也有类似计划。
从各国的趋势看,配合国家大数据战略制定数据开放政策和要求数据共享也是非常必要的。另外,“数据开放”已经成为各国共识,随着国际数据市场的逐步形成,没有符合国际标准的国家级数据公开标准,也就难以建立能与国际市场接轨的数据市场管理标准。“数据开放”俨然已经成为国际竞争力的一环,且欧美等国已抢占先机。所以无论从优化公共管理(包括应急管理)的角度,还是从增强国家竞争力的角度,抑或是规范数据市场的角度,由中央政府领衔制定国家级数据开放政策是非常必要的。
(三)探索大数据在应急管理领域中具体的应用形式
事前准备阶段,政府或其他部门需要为大数据的应用做出准备。在管理和权限设置上,有必要设置“大数据信息官”并赋予其具有改进组织流程的权限,以推进大数据在部门工作中的落实。在技术升级和设备使用方面,政府或其他部门要明确需要解决的问题,以需求为导向,进行一定设施的准备。
事中响应阶段,信息的有效聚合和快速传递是核心环节。政府或其他部门在使用大数据增强信息采集能力的同时,也要进行数据共享,建立统一的数据中心,以便在应急管理过程中提高效率。同时,在应急管理的事中响应阶段,指挥人员、专家技术人员和现场处置人员的联系也至关重要,建立高效的信息共享渠道也是很重要的方面。
事后处置和救援阶段,及时了解救援信息和对所获信息的处理最为重要。如果有明确的信号可以让应急处置人员快速了解需要救援的地点和所需救援内容,救援效率便可大幅度提高。大数据在事后处置的应用便是遵循这种逻辑:通过网络或者监控设备,采集需要救援的信息,用算法筛选整合这些信息,并将指令快速传达给应急处置人员,从而提高救援效率。
(四)完善隐私保护政策,注重公共安全和公民隐私之间的平衡
大数据时代,如何对公民个人隐私保护也很重要,最好能在公共安全和公民隐私之间达到平衡。2013年5月,爱德华?斯诺登披露了美国国家安全局自2007年实施的绝密电子监听计划,即“棱镜计划”(PRISM),允许FBI和NSA对包括微软、雅虎、谷歌、苹果在内的共九家IT巨头的数据进行监控和挖掘,直接或间接接触大量个人聊天日志、私人数据、语音通信、传输文件和社交网络数据。[28]尽管美国自我标榜“重视个人隐私”,但是公民个人的数据信息没有得到有效保护,引发了对“大数据时代”个人隐私的广泛讨论和关注。
2014年5月,美国总统办公室发布“大数据隐私”报告称,越来越多的传感设备和智能设备,使得政府或企业对个人信息的搜集无处不在。这些数据不但被用来进行实时分析,还被储存起来,成为一个人的“电子脚印”。[29]技术对个人隐私的威胁已经超出了原有法律框架。如果不对采集的个人信息使用进行有效规范,极有可能会出现大规模侵犯隐私的事件,从而使大数据信息采集成为一种“社会安全隐患”。因此,全面的数据隐私保护与最大的公共安全追求将是大数据时代面对的一个重要课题。
四、结语
“大数据”在应急管理中的应用具有很大潜力和价值,本文只是在理解大数据内涵的基础上,根据应急管理的特点,总结了大数据应用的基本框架和分析了实践案例等,由于大数据在应急管理中的应用本身就是一个交叉学科研究的主题,还有很大的研究空间,希望本文能引起相关应急管理研究者和实务人员的思考,为进一步促进大数据在我国应急管理中的应用提供更有质量的研究成果和实践。
[参考文献]
 
    中国大数据产业峰会暨中国电子商务创新发展峰会近日在贵阳开幕。随着大数据发展上升为国家战略,2016数博会已升格为“国家级”盛会。
    今年数博会的主题是“大数据开启智能时代”。以《促进大数据发展行动纲要》为基础,数博会共策划举办60余个主题论坛,云集了全球知名企业大佬、大数据领军人物、专家学者等两万多位国内外来宾,300多家大数据相关企业在贵阳国际会展中心展示新产品、新应用。
    那么,今年数博会带来哪些新看点?又有哪些新论断?
    2020年我国将成为全球数据中心
    阿里巴巴集团的技术委员会主席王坚指出,在人类的发展历史上,人类一直在消耗大自然的资源,但互联网让人类可以自主产生“数据”资源。数据资源要产生价值,唯一的途径就是靠计算。
    “云计算、大数据、人工智能、机器人,这些其实都离不开互联网数据和计算,当我们谈论云计算和大数据之时,应该更注意到计算和数据在互联网时代所带来的价值和影响。”王坚称,当计算成为公共服务,当互联网成为基础设施,当数据变为生产资料,一个新的经济时代就会到来,那就是计算经济时代。
    国家发改委副主任林念修也表示,当下,信息经济迎来了快速发展的黄金时期,以大数据为代表的信息经济对促进传统产业升级、培育壮大新动能必将发挥越来越重要的作用。
    林念修称,据预测未来5年,中国大数据产业规模年均增长率将超过50%,到2020年中国的数据总量将占全球数据总量20%,届时中国将成为世界第一数据资源大国和全球数据中心。
    政府数据应当开放
    大数据时代,数据是基础资源。小i机器人创始人、董事长袁辉表示,现在80%的数据在政府手上,政府首先要明白数据为谁服务,数据来源于民,也要为人民服务。贵州、贵阳已做到数据开放了。
    阿里巴巴集团副总裁、《大数据》、《数据之巅》作者涂子沛也表示,政府掌握大量数据,贵阳之所以建立交易所,正是认识到了数据是资源,要让它流动起来。
    国家行政学院电子政务专家委员会副主任汪玉凯表示,大数据时代来临对政府既是挑战又是机遇。绝大部分政府机构由封闭、保密,转向开放,是非常“痛苦”的过程。政府需要做到两个开放:一是客观信息要开放;二是数据要开放,政府部门之间打破行政壁垒,而且数据还要向社会公开。
    大数据建设要避免过热
    中国科学院院士、上海交通大学副校长梅宏在会议发言中提出,大数据是信息化3.0阶段的象征,是信息技术发展和互联网延伸带来的“自然现象”。大数据建设和发展,要避免出现过热,急需顶层规划引导。
    梅宏指出,大数据驱动的新时代为信息化3.0时代——以数据的深度挖掘与融合应用为特征智慧化阶段。从上世纪80年代的PC机开始,是信息化第一波浪潮,1995年之前是信息化1.0时代;之后进入信息化2.0时代,也就是以联网应用为特征的网络化阶段。
    他认为,大数据是信息技术的不断廉价化与互联网及其延伸所带来的无处不在的信息技术应用所产生的“自然现象”,源于摩尔定律驱动的指数增长模式、技术低成本化驱动的万物数字化、宽带移动互联等。
    梅宏强调,大数据在中国已经成了各行业的共同旗帜,包括其他领域,还有非技术学科的领域都开始汇集在大数据的概念之下,毫无疑问是过热了,大数据已经成为各行各业争取资源的“马甲”。
    梅宏说,国务院虽然已经发布《促进大数据发展行动纲要》,但实际上大数据发展还面临法律不健全、标准不统一、技术不到位等问题。
    梅宏呼吁,大数据正引发新一轮信息化建设新潮,急需顶层规划和示范引导,积极谋划、谨慎推进,避免一哄而上,造成超前投资或重复投资。
    数据安全强调自主可控
    中国互联网协会理事长邬贺铨指出,大数据本身是一个产业,现在全世界大数据市场是由硬件和软件服务构成的,“现在大数据产业基本上90%以上都是外国公司,在大数据产业里面,我国现在仍存在短板。”
    邬贺铨认为,大数据安全问题至关重要,“大数据意味着海量数据的汇集,会引来更多潜在供给者。黑客在大数据时代里面有多维的数据,把它们关联起来很容易就破解一些关系,可以借此入侵企业的网络”。
    邬贺铨表示,国产的设备虽然是自主研发的,但未必是安全可控。自主不等于可控,只要有漏洞就可能成为非法获取信息的来源,“据安全机构统计,我国高达16%的网站存在安全漏洞和后门,可以说网站和应用系统的漏洞是大数据平台面临的最大危险。
    针对如何实现自主可控,中国工程院院士倪光南提出“自主可控”的评估方法与推动办法。
    倪光南认为,“自主可控”是实现网络安全的前提,要达到“自主可控”,产业链各环节都要满足要求,比如,供应产品的企业资质要有保障,制造质量、工艺控制等有标准。相比而言,美国的政府采购政策,对自主产品所占比例有要求,而中国却没有。他希望经过实践,探索解决这些问题。
    徐丽莉整理撰写
 
数据、大数据及其本质
2015-09-14
10:47 来源:学习时报  我有话说
  作者:王克迪
  最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。
  数据与大数据
  技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以这样描述:最近两年生成的数据量,相当于此前一切时代人类所生产的数据量的总和。
  大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。
  在大数据的上述特征中,其多样多变性值得特别关注。它表现为所生成数据格式的多样,如文字、图片、视频等各有多种不同的格式,取决于生成数据的技术与设备,却反映出数据生产的时代性以及数据处理的能力与条件,也反映出被描摹自然和社会的多姿多彩。另外,随着技术发展和数据量急剧增长,新的数据格式还会层出不穷,多变和多样特征更加突出。
  大数据既是一个技术概念,又是一个商业概念,它的出现,有其特定背景,即IT领域的商业和渲染新技术的考量。大数据包揽了人类获取数据的所有途径,提示哲学研究一个全新时代的到来,这个时代的先声,很久远之前就已经响起,那时,它仅仅被称作数据。在我们的讨论中,主要考虑数据与哲学的关联。
  数据与认识
  这里的认识,指的是人的认识,是人对外部世界的认识。
  大数据的出现和引起关注,使得一个事实得到确认,这就是,数据覆盖了人类对于外部世界的感知。感官及其所获得的经验退居到显示屏之后,退居到各种类型的技术装置之后,这些装置将自然和外部世界的映像“转译”成人类感官可以接受的图像、声音甚至触觉和嗅觉味觉。这既是技术发展的必然,又是始料未及的情况。如果说,此前,哲学还试图在技术系统生成的数据之外寻找世界的直观映像,到了大数据时代,这种人类的直接感知即使没有被完全取代,也失去了其传统意义上的优势。一言以蔽之,哲学,需要从数据中寻求对世界的认识,舍此即失去认识的来源。
  这似乎是一个惊人的变故,其实不然。在影响人类认识的议题上,大数据带来的变化,只是数量和范围上的,并非根本意义上的改变。事实上,回顾历史,我们发现,我们的对外部世界的感知,从来都是依赖于某些技术装置的,也就是说,人的认识,其实是通过数据获得的。
  最早的技术装置,可能是直尺,它用于测量长度,例如田亩;更早的述说技术装备,也许是绳结,它用来述说一件重要的事件。在我国,从河北泥河湾先民打造石器,到安阳殷墟龟甲上刻画的文字,都可以看作是某种“数据”,表达着人类对外部世界的某种认知。而面对着所有这些早期的承载数据的技术装备,人们获得对外部世界的某种最早的抽象认识。古代人先后发明过算筹、斗和称、漏刻、浑象仪、量角器等等,无不是用来产生认知外部世界的数据,人们也发明笔、纸张、雕版印刷术,也是用来记录和生产数据。依托所有这些,数据成为人们认识的依据,思考的源泉,表达的工具。
  近代以来,西方的技术和科学异军突起,望远镜、显微镜、六分仪、光谱仪、质谱仪乃至加速器、射电望远镜相继出现,成为人类认识外部世界的有力工具。这些技术装备产生的数据成为近现代思想的新的依托。到了当代,伴随着电子计算机的强大数据处理能力的出现,各种延伸和阔展人类感官感知能力的器皿设备层出不穷,终于完全或接近于完全取代人类对外部世界的直接感知,通过把数据呈现给人类,成为人类认识的来源。这就是大数据的时代。
  关键点在于,我们所知的世界,全部是数据表达的,其中一部分获得理解和解释,更多的只是数据,没有得到解释甚至没有得到关注,它只是像自在自然那样在那里,等待人们去搜索发现它,解释它,运用它。
数据与本体
  根据上述认识,似乎可以通过观察数据的形成和生产,来理解哲学与科学的在解释客观自然议题上彼此消长。
  在近代科学初兴时期,它并没有从传统哲学中分离出来,它被冠之以自然哲学。与之相并行不悖的,有哲学本体论和形而上学。后两者都是试图以某些观念描述和解释外部自然,寻求事物的本质,并在哲学领域合法存在。伽利略、牛顿等人推崇的使用先进观测和实验手段观察与调控自然,用数学述说自然过程。当这一切成为风气之后,哲学本体论逐渐衰退,哲学似乎放弃了对客观世界的描蓦和解释,让位于自然科学。
  最后一位试图运用科学数据来解释自然的哲学家是康德,他研习了牛顿的运动力学和天体力学,提出宇宙演化学说。然而,拉普拉斯在康德基础上,用物理理论和数学表述了星云说,在无限时空中的恒星和星系演化学说。拉普拉斯之后,科学之描摹自然优越于传统哲学得到公认。
  一般认为,在经典科学时代,哲学与科学在描摹自然方面的差异,在于是否运用数据和使用数学方法。今天我们发现,这并非全部问题所在。经典时代,直至大数据崛起的今天,自然科学的确在使用各种技术装备获得的数据方面占据优势地位,哲学则固守传统的概念分析和一般推理方法,这还是指的好的哲学。这与其说是哲学落后于科学,勿宁说人类获得数据的能力尚有不逮,给传统哲学留有施展余地。
  大数据的出现,包围了人类认知世界的所有方面,情况发生变化。在科学界开始讨论并实施“计算一切”的时候,同时也给哲学重新回到讨论本体打开方便之门。这里发生的变化是,数据成为认知的源泉,思维的质料;我们对世界的解释转变为对数据的解读,舍此无他。大数据的出现,使得我们发现,我们所知的称作外部世界的东西,是通过数据来呈现的,当我们寻求世界的本质和意义时,我们实际上是在数据中徜徉;当我们觉得有所发现有所体悟时,实际上是自觉找到了一些数据之间的关联。
  数据的物理学气质
  所谓物理学气质,指的是思考事物的本质,从原理层面上对事物的本质进行探究,揭示出事物的基本规律。当前备受热议的数据和大数据是否具有揭示事物基本规律的功能,可能还有待于观察,但是,数据,就其现象而言,似乎已经展示出某种物理学气质,考察这一特性,既有利于认识数据的本质,也有利于深化对物理学的认识。
  这里所说的物理学,主要指的是量子力学。
  众所周知,量子力学无论在理论上还是在应用上都获得巨大成功,在场论、粒子物理和天体物理学研究上都扮演者基础角色,在固体物理、半导体物理以及超导物理等应用学科上都有极出色表现。量子力学与哲学的联系,比其他任何自然科学领域都要来得紧密,其中最重要的就是认识论问题。
  量子力学发现,建立在测不准关系基础上的认识,受到基本物理原理的限制,客观世界原则上不可能真正被观察到,我们只能根据物理测量结果认识世界。而测量本身形成对客观世界的干扰,导致无法真正认清它的本来面目。所以,我们对于世界的认识,唯一来源就是测量的结果,即所谓经验。
  量子力学的这一认识原则引发将近一百年的讨论,至今未能平息。
  尼尔斯·玻尔认为我们必须接受量子力学给出的认识原则,承认和接受自然作出的安排,量子力学已经很好地描绘了自然;爱因斯坦则不愿接受玻尔的“绥靖哲学”,他觉得一定是量子力学本身的不完备造成,人对自然的认识应该是能够穷尽的,不可能也不应该像量子力学所描绘的那样。
  当我们回顾前述数据与大数据的认识论与本体论含义时,就明白,一直以来有关量子力学问题的争论,本质上就是对于数据的意义的争论。显然,爱因斯坦不愿意接受数据给出的结果,以及对于数据的解释,而玻尔则认为数据揭示的自然正是自然本体,无论我们是不是喜欢它。
  有趣的是,人们一直在争论量子力学的测量问题,此前却几乎从来没有人意识到测量的结果本身就是数据,而数据已经成为事实上的认识来源。离开数据,我们对于世界一无所知。
  在这个大数据时代,当我们认识到,数据正是我们认识世界的源泉,所谓世界其实就是数据构成的,我们也会看到数据本身所具有的物理学气质,正像量子力学所强调的那样,世界隐藏在经验表象背后,我们所能谈论的,只是经验本身
 
大数据带来弯道取直与换轨的机遇
月27日,大数据专家、观数科技创始人涂子沛、贵阳市委书记陈刚、北京浩瀚深度信息技术股份有限公司总裁张跃应邀做客《思客讲堂》,共同探讨大数据带来的新经济模式,数据如何开放与管理,大数据技术将给中国社会带来的挑战和新机遇等话题,现场讨论“火花四射”,各种精彩观点层出不穷。本次活动由思客与观数科技、北大国发院博士论坛联合举办。
开放数据,政府应该走在商业机构前面
  思客:BAT拥有大量的数据,而且是他们的核心竞争力。涂老师,您曾担任阿里的副总裁,假如您是马云,会开放数据吗?
  涂子沛:事实上,阿里一直在开放数据。开放数据首先是公共部门先开放,然后是商业机构。所以,公共部门应该做领头羊。贵阳在这方面做了很好的工作。 但是阿里不可能全部开放, 因为涉及到商业竞争,这部分数据是商业机构投资,然后他搜集的数据。他有所有权,所以他可以拒绝开放,可以封闭。但是开放有很多层次,可以说向整个社会开放,也可以向一个人开放。比如阿里向个人开放,我想看个人的消费记录能不能看,中国正逐步向这个方向前进。我希望看到的是公共部门在引领数据开放,而不是商业机构。如果是商业机构在引领中国的数据开放,那我们的公共部门就缺位了。
 陈刚:涂子沛的观点我是赞同的。政府在数据开放的方面应该走在前面。走在前面,我认为有两句话:第一,政府要搭建规则,搭建秩序,让数据有序的开放,让数据更安全的开放。第二,政府是目前社会最大数据拥有者,而这些数据来自于民,应当服务于民。在保护个人隐私的前提下,在保护社会公共安全的前提下,数据应当尽可能的开放。但是我们现在看到一个问题是什么?有不少的部门想开放数据,但是他不知道怎么开放。因为大家都知道,大数据是一个双刃剑,数据开放的同时意味着社会的风险。怎么样在数据开放的同时尽可能的保护隐私,保护社会的公共安全?这就是政府在数据开放中面临的一个问题。
  那么,我们贵阳推进开放,现在做三个层次:第一,先把政府数据开始共建,通过数据的共建,建立统一的数据标准和数据存放接口的互联,使得数据从产生开始就有共同的标准,共同的可使用的结构化的尺子。第二方面,可以实现政府部门数据的互通。现在出现许许多多的事情,就是因为政府之间的数据不通,工商填一个表,下一个部门还要填同样的表格。
涂子沛:开放数据首先是公共部门先开放,然后是商业机构。姚冠华/摄
  涂子沛:这是我回国亲历的一个事情。我租了一个房子去办证,拿了一堆的资料。现在政府把行政中心放在一起,柜台就是开放式的。我跟办电卡的说我要办电卡,他要我复印资料;我在这边办水卡的时候,那个人还要我再复印一套资料,这就说明这个数据完全没有连通。
  陈刚:他刚才讲的这个故事也不是贵阳的故事。实际上,政府部门之间数据要互通,我认为这是第二个阶段。最重要的阶段是政府的数据和社会共享。我认为最重要的一条,怎么样来共享,怎么样来有序的共享,怎么样共享产生的是正能量。
  在这个过程中,我认为政府需要探索数据有序开放的模式。我们现在讨论比较多的是抱怨政府数据不开放。其实政府有政府部门的担心,这个数据开放之后如果造成了隐私的问题,造成了公共安全的问题,谁来负这个责任。因此,数据开放需要一个加工再处理的过程。
  比如,把身份证号码、电话号码、住址去掉,然后把有价值的数据向社会开放。现在做的比较多的是停车场的数据,其实城市交通的数据就可以向社会开放。我知道有人比我的想法更聪明,如果用这些数据干一些不法的事情就会出麻烦。我们首先是契约式的开放。你是一个法人,是一个可以承担责任的人。我跟你签订约定,把数据有序的向你开放。你用这个数据可以服务于社会,也可以给自己的企业带来价值,这就形成有序的数据开放。
  政府的数据如何有效开放,现在还没有标准的答案和统一的格式。贵州作为大数据的综合试验区,我们有义务探索这个路径。
大数据时代,不要讨论所有权,而要讨论使用权
  思客:在数据有序构建的过程当中,政府在里面有很多协同的作用,包括很多政府部门和企业,您觉得这里面最大的难题是什么?
  陈刚:我觉得人类进入信息社会,大家都认为数据具有巨大的价值,甚至认为数据是未来社会的核心价值。现在围绕这个核心价值全链条的实现过程没有规则。比如,我作为淘宝的一般消费者,在淘宝上面买东西,我形成了我的浏览记录、消费记录,形成这个数据是谁的?阿里现在说是他的,我认为是我的。因为我花钱买东西了,即使我没有花钱买东西,我也花时间在网站上浏览。
  我们现在有一个共同的问题,数据的所有权归谁?我认为现在众说纷纭,如果一个东西的所有权都没有说清楚,价值链的产生谁来享有。人类社会还是很聪明的,现在有越来越多的共识,不要讨论数据的所有权是谁的,而是讨论这个数据的使用权是谁的。这个数据阿里发现了,阿里就有它的使用权,我想问阿里,你们下一次能不能把个人的消费数据在网上公布。我今天给淘宝提一个意见,淘宝在我们个人消费单子里面永远没有一个栏,计算累计消费的钱数,我想在软件设计当中有一个考虑,就想怕花钱太多不敢消费了。
  涂子沛:陈刚书记刚刚问的阿里问题,我可以反过来问陈刚书记,我在政府部门也留下了很多数据。那些数据我看到了吗?那些数据更加关键,是整个社会的基础设施,无数的商业机构。刚才陈刚书记说了政府是最大数据的拥有者,换句话说我们最大的数据就在政府,政府掌握了我们所有的数据,这些数据能分享给我们吗?我们今天也没有看到。
  还有,阿里巴巴其实做了一些工作。我们做的不够完美,但是我一直在做。每年年底的时候会出一个淘宝时光机,这件事情很了不起,把一年的消费记录全部分门别类做一个总结,有消费的总额。很多消费者拿到这个报告之后,有人反馈告诉我说,眼泪都流下来了,为什么?因为他一年的记录被精心的记录下来,精心的分析。数据能激活一个人的记忆,所有的记忆沉淀在那里,你的消费过程,可能花钱太多,有可能有喜悦,也可能有不高兴,在年终的时候看到一个这样的报表,所有记忆重现,给人感觉很好。我们要尽量做到“数据有温度。”
 
互联网伦理构架建立在数据共享的基础上
  陈刚:数据开放到底往哪里走,数据开放的规则和标准怎么制定,这不是阿里和贵阳市政府的事情,是全社会的事情。
  无论今天在现场,还是在互联网上的听众,你们在这样的社会中,也会有许许多多的信息泄露遇到的麻烦,事实上,这是全社会的问题。我认为在这个过程中,政府要发挥主导性的作用,就是政府来制定规则,引导秩序,甚至于应当在互联网建立伦理构架,这个伦理构架是建立在对数据的基本认识的基础上。所以,这一条路,我认为需要共同来探索。
张跃在现场提到,数据开放的核心问题是是否对开放者有利 陈杰/摄
  张跃:听了两位的讨论,深有感触。这正是互联网时代,包括大数据时代比较混沌的问题。我就说两点:第一,数据是谁的?这个非常简单,谁有能力就是谁的。你没有能力,就不是你的,你有能力就是你的。
  第二,数据的开放问题。这个问题既简单又复杂,如果片面的看就非常复杂,这里面有隐私问题和责任问题,而核心问题是不是对开放者有利,只要有利开放不是问题。
  商业有商道,社会上有伦理。可能有些问题也是我们这个社会共同承担的一个发展的历程。我觉得贵阳大数据的建立本身就是中国在互联网经济、大数据时代的一个路标性的事件,必定会成为历史的一个标杆的产物。
  我也特别祝愿,在中国大数据时代能够弯道超车,让我们民族在大数据时代能够把一些弱势,比如诚信、契约,把这个事干得更好,让世人承认咱们,中华民族确实很伟大,这是我的一个想法。
 
关联是大数据核心当中的核心
  思客:能否给大家分享一下您如何通过数据的挖掘,使之成为商业价值?
  张跃:我们是一家做互联网流量检测和流量数据采集,以及控制、优化的公司。目前来说,在中国互联网最高端,采集设备几乎百分之百是由我们提供的。低端的这些数据采集有很多家公司。浩瀚深度每天10个T以上是有的,这个数据很大,而且是不断地流淌着,存不下来,都浪费了。我的基本客户就是运营商,运营商现在也发现了这些数据是金矿。如果不断的流失掉,确实量太大。
  第二,这些金矿的挖掘是一种技巧。大数据里面是有黄金的,刚才二位都讲到骚扰电话、骚扰短信,恰恰是大数据应用的一个空间,也是我们大数据将来产品消费的空间。如果通过大数据,他知道你就要买这件东西,他还去骚扰别人吗?打电话是需要成本的,不光是电话费的事,还需要时间,还要雇人。假如大数据分析告诉他你要买这个东西,这样大数据产品就有了。
  我个人认为,这个通信时代,之所以要产生后续的大数据时代,就是因为他有产品空间,有需求。所以,在这方面我觉得骚扰电话、骚扰短信,恰恰是我们大数据未来的一个市场空间。不要忘记了,这就是我们服务的对象啊。
  所以,我在掘金的过程当中,帮助运营商发现的过程当中,找到一条把大数据变成有用产品的路,比如客户画像,数据安全保护,隐私的转换,隐私的脱敏等等。我们找到了这条路,但是很遗憾的是,大数据归谁啊?浩瀚深度太小了,我没有地方,挖掘出来也没有办法变成产品。我期待着,我们能够为社会做这些,我们把这个产品做出来,这个产品是什么?就是关联。关联就是大数据核心当中的核心,它就是金子。什么是关联?共享这个事看你出多少钱,不给钱是不能共享的。我觉得这个非常重要。
  Uber也好,滴滴打车也好,不给钱,给你坐车吗?共享的前提是优化。这里面有为客户服务的便利性、经济性、舒适性,甚至我的愉悦性,这是客户需要的,我觉得共享的前提还是要给钱。
 
痛客计划:分享痛点,寻找创业机会
  思客:陈刚书记,您现在打造的“云上贵州”非常有名气,这里面也有共享经济的问题。您建立这么多大数据的中心,现在产生的商业价值怎么样?
  陈刚:今天讨论的主题是共享经济。共享经济是互联网时代的一个重要特征,贵州省贵阳市抓住这个机会,利用大数据推动经济发展。刚才子沛讲了两个例子,纽约时报100多年的报纸怎么录入进去,他把它变成了验证码,让所有人用验证码进行录入。这是一个很好的创意。但是,产生这样创意的人并不多。能否把提出问题的人和解决问题的人分开,我认为这是未来创新的一个重要方向。
  事实上,杭州的图书馆也好,纽约时报也好,许许多多,包括今天在座的各位都会有问题。但是我们以往的思路是什么?你提出问题,你自己想办法解决。我们没有张总那个能力。但是贵阳推出了一个“痛客计划”,就是我不管能不能解决这个问题,把社会的痛点提出来,我就是痛客。这个痛点也许能解决,如果能,我当初提出这个痛点就是有价值的。
  比如刚才说的纽约时报100多年的报纸,可能许多的单位都有这个问题。我们搞这个痛客计划之后,把这个痛点提到这个痛客计划上,他不知道怎么解决,但是社会上有很多聪明人来解决这个问题。
  今天,我分享一个我自己的痛点,也是亿万消费者的痛点。我们知道今天中国发售的邮包,零售的商品应该是几十亿件。我现在也是淘宝和京东的消费者,我买完东西之后,每天或者每一次消费之后,都要考虑这个盒子怎么丢掉。现在每天消费了多少盒子?扔掉多少盒子?这也是我的痛点,也是社会的痛点。我们有没有可能,有一家企业,有一些聪明的人像发明集装箱一样,可以发明重复使用的小邮盒,这样来解决社会的需求。我相信这一定有人有办法。今天我借助新华网发布我的一个痛点,如果社会响应,我不要今天的知识产权。我告诉大家,如果今天网上的听众听了这个消息以后,请你们关注贵阳的“痛客”网站,你们去申请注册成一个痛客,不要自己去创业。你们把这样的想法提出来,我们给你加上水印,确认这个想法是你第一个提出来的。如果我们和一些有创意的人,像张总这样的人,找到解决方案,最终形成一个产业,你有可能是这个企业最早的不出钱的股东。
 
一个鸡蛋的故事告诉你政府如何平衡网络经济和实体经济
  思客:现在有一个说法,实体经济比较暗淡,互联网经济红红火火。而一个国家长远来看,实体经济是非常重要的。陈刚书记,您怎么平衡这个比例?
  陈刚:刚才子沛讲了一个观点,工业可以柔性制造,谈到工业4.0。现在消费也有一个消费4.0,但是工业4.0和消费4.0怎么连接,我认为现在一个重要的思路是要把中间的信息打通。有些打通,比如说商品的零售,像阿里巴巴这种模式,可以是跨区域的,甚至是跨国界的来完成。但是送鸡蛋这件事情,一定是在社区内完成。我们能不能把社区就近的生鲜超市和家里冰箱的物联网进行对接,这样就形成一个现实和想象的很好结合。所以我认为作为政府来说,我们做的事情不像他们两位那样出很多奇思妙想,我们需要做的事情就是把他们的想法,由政府搭建平台,让社会用利益驱动的方式实现整个链条的组合,这就是政府要做的事情。
  涂子沛:这个思路很好。这背后就是实体经济,它有一个衔接,在政府可能正是在这个时代不断往前推进。越来越清晰地看到,政府就是在虚拟经济或者互联网经济和实体经济的节点上能够发挥巨大的作用。
 
发现问题是人类的智慧,机器没办法做到
  思客:在未来的共享经济时代,更多的是机器替代人的脑力。现在有一种说法是中等收入或者越有知识的人群面临失业的风险越大,由此也带来很多社会上的问题,那怎么解决这个问题?
  陈刚:其实每一次科技革命都是在解放人类的麻烦,帮助人类找到更容易解决问题的答案。互联网大数据实际上是解放人的脑力,接着就产生了一个简单的逻辑关系,许多人会失业。就像我们在几十年前讨论要不要搞大规模化生产,现在看到很多生产线不需要几个人,从原来的手工作业变成规模化生活,确实会造成很多人失业,但是人类社会就是这样进步的,淘汰一个落后产业的同时,会让人产生新的创新动力,研究社会新的发展机会,所以大家去当痛客吧。
陈刚:淘汰一个落后产业的同时,会让人产生新的创新动力。姚冠华/摄
  张跃:人工智能也好或者科技发展很多奇思妙想也好,我认为逃脱不了三要素:生产力、生产关系和生产资料,只要人们正确的对待它就行。AlphaGo再厉害,是工具,毕竟不是人。所以你把它当做工具,一切烦恼都没有了。如果你把它当做人就出现了比如伦理等很多说不清的问题。所以人们有的时候在区分工具和人本身之间,有时候在这一点上是模糊的。所以人有幻觉,会得病,会抑郁。在这方面来讲,人还是要回归本质,机器是我们创造的工具。
  涂子沛:AlphaGo其实真的不可怕,为什么呢?AlphaGo就当不了痛客,它不会发现问题,它只会解决程序化的问题,它解决的每一个问题都是程序驱动的,而发现问题才是人类的智慧。要把发现问题的人跟解决问题的人分开,有些人发现问题,有些人解决问题。那我们人类去发现问题、去定义问题,这是机器没有办法做的,因为这些都是新的,要发现新问题、定义新问题,有一部分问题,重复性的,比如打字员的工作,借书采购员的工作,就可以让AlphaGo去做,实现人类的跃升。
  我现在就很想做解决问题的人,比如今天刚刚说的这些问题,那今天就要解决,我们今天站在和世界同步的问题上,美国也面临这些问题,那这些数据到底归谁所有?谁有所有权?谁有使用权?什么时候可以使用?怎么使用?这需要一个方案。刚刚陈书记见到我说你是大数据的布道者,但是今天不仅仅需要布道,还需要解决方案。这个解决方案会帮助中国去把握弯道超车、后发优势的机会,如果我们解决的好,那我们今天跟美国就站在同一个起跑线上了。
 
大数据带来“弯道取直与换轨”的发展机遇
  思客:您和张总都提到了弯道超车,您认为我们现在真的具备了一个弯道超车的机会和能力吗?
  陈刚:互联网、大数据给了我们一个特别的机会,我认为不应当简单把它形容为弯道超车。因为弯道超车意味着你比别人有更大的胆量,也有更大的风险。我们能不能换个思维,我们叫弯道取直,我们干吗要跟它一起弯道超车呢?我们能不能修一条直道,直接过去。所以在这个方面,我认为大数据、互联网给了我们中国这样一个机会,也给了我们这些后发达的,像贵州这样的地区一个发展机会。以前所有的工业文明要建立在物流、制造、金融等基础上,但是现在信息社会,人和人、国家和国家在网络空间距离上是相等的,也就是给我们这些后发达的地区一个新的发展机会。所以我认为贵州该采取的路线是弯道取直。
  涂子沛:不要错过贵州,不要错过贵阳,事实上是不要错过这个时代。今天讲的是弯道超车,弯道取直。我还想在这个基础上提出一个说法就是换轨,重新起跑。原来在互联网这个轨道上跑,贵州和北京相比可能是有差距的,可能差500米,老是追,它是追不上的。但是今天裁判员重新吹哨子,说你们不要跑了,换一个轨道,在移动互联网这条轨道上重新起跑。在这条轨道上,中国和美国、贵州和北京我们是没有差距的,可能5米都没有,完全是并驾齐驱。这就是今天中国的机遇,是一个换轨的机遇,就是从工业换到数据文明。
  版权声明:本文为新华网思客独家稿件,转载须注明来源为新华网思客。授权合作请联系[email protected]
新消费井喷  新需求待哺
——从大数据“画像”看供给侧改革空间 2016年04月30日04:56  来源:人民网-人民日报  
在大量传统产业去库存、去产能压力不减的背景下,影视娱乐、旅游文化、教育医疗等代表的新消费需求逆势井喷。来自中国银联、阿里巴巴、乐视等公司的大数据显示,供给侧改革空间广阔,以“软产业”带动“硬产业”,加速互联网科技融合,正有效改造提升传统产业,成为转型升级的有益探索。
  超过50亿张银联卡的消费数据显示,2015年消费增速最快的行业几乎都来自服务业
  汽车零配件行业的银联网络消费金额由2014年的264.1亿元增长至596.6亿元,同比上升125.9%,超过汽车销售行业0.6%的消费增速,反映出在汽车产业大规模增长结束后,居民的需求从获得汽车逐步转向维护使用汽车。
  物流运输行业(包括快递、货物搬运和托运)银联网络消费金额由2014年的100.4亿元增长至351.5亿元,同比上涨250.1%,增速较上年同期提高218.5个百分点。物流行业呈爆发式发展,网购“剁手党”功不可没。
  宠物行业(包括宠物商店和兽医服务)银联网络消费金额由2014年的17.5亿元增长至59.1亿元,同比增长超过237%。
  旅游需求井喷式增长
  联合国世界旅游组织预测,2016年中国仍将继续保持全球第一大出境游市场地位。国家旅游局、联合国世界旅游组织的数据显示,中国出境游人数和旅游消费已持续多年保持全球第一:2013—2015年,中国公民出境游人数分别为9819万人次、1.09亿人次、1.2亿人次,境外旅游消费总额分别为1290亿美元、1648亿美元、2495亿美元。
  中国银联网络消费数据显示,2015年主要节假日旅游售票类用卡消费增长迅速,其中春节、“五一"劳动节和国庆节期间,包括旅行社和景点售票的旅游类消费金额同比分别增长了88.2%、57.5%和41.2%。
  其中,2015年国庆节期间全国异地加油银联网络消费金额同比增长39.2%,比整体加油规模增速高出6.7个百分点。其中,青岛、西藏两地异地加油占比分别高达54.5%和58.5%。异地加油占比的提升显示出节假日期间居民自驾游逐步增多。
  在中西部地区,旅游消费需求也井喷式增长。以甘肃省统计数据为例,文化旅游是在经济下行情况下,唯一高速增长的产业,2014年和2015年,全省文化产业增加值增速分别同比增长25.7%、18.2%,旅游综合收入增速分别同比增长26%、25%。2015年,甘肃省文化旅游产业带动投资380亿元,拉动经济增长0.78个百分点,对三产的贡献率达到20%,带动全省新增就业8万人,乡村旅游帮助17万人脱贫。
  健康消费从“有病治病”向“无病预防”转变
  来自阿里巴巴的数据显示,近2年来阿里零售平台上医药产品、健康产品和医疗健康服务等健康消费高速增长,诸如基因检测、癌症筛查、孕产服务包等产品和服务需求快速升级,居民健康消费正从“有病治病”向“无病预防”转变。
  2015年“双11”,阿里巴巴平台以智能手表、手环为代表的可穿戴设备同比增长接近5倍,健康护理服务增长205%,健康和意外保险增长432%。据天猫医药馆公开数据显示,2015年“双11”期间,和睦家医疗80220元的“产前检查+剖宫产后顺产优惠套餐”成为天猫医药馆“双11”单价最高的商品;通策医疗服务旗舰店一天内就卖出500余颗种植牙。
  中国成全球增速最快、潜力最大影视市场
  据广电总局公布的数据,2015年我国电影总票房为440.69亿元,同比增长48.7%;全年观影人次12.6亿,同比增长51.08%。Imax首席执行官里奇·盖尔方德预测,中国将在2017年超越美国成为全球最大的电影市场。
  来自乐视的数据则显示,强大的内容版权库和内容生产能力,成为其向智能硬件进军的“引燃剂”。凭借10万集电视剧、5000部电影的海量内容,以及欧冠、英超、温网、环法、F1等在内的250多项赛事版权,乐视2013年初涉智能电视生产,当年便售出30万台,2014年售出150万台,2015年售出300万台,而同期中国彩电市场零售量同比增速仅为4.8%。据估算,乐视每1元影视文化消费,带动的智能硬件、网络流量、边看边买等消费接近100元。
  乐视提出“产业垂直整合将战胜传统专业化分工”的新经济观点,不仅实现了“软产业”带动“硬产业”,也有望通过硬件出口,带动文化软实力的出口。乐视网信息技术(北京)股份有限公司副总裁刘淼表示,通过智能电视占领欧美客厅,依托跨文化认同度较高的多类智能终端设备及互联网平台,以乐视为代表的中国企业完全也可以向欧美日韩等输出中国民族文化和价值观,目前,乐视投拍的《甄嬛传》《芈月传》等均在海外市场受到欢迎。
  新经济曙光初现  “抓新放旧”焕发生机
  发展新经济、培育新动能,是当前推进供给侧结构性改革的重要内容。财新智库与BBD(成都数联铭品科技有限公司)联合发布的中国新经济指数显示,今年开春以来,新经济脉络若隐若现、缓慢爬升。今年3月,中国新经济指数为32.1,即占整个经济的比重为32.1%,虽比2月的32.3下降0.2个百分点,但仍比2015年8月的第二高值上升了2个百分点。
  数据公司万得资讯对A股部分上市公司2015年财报分析也发现,住宿服务、商业服务、信息技术、科学研究、运输和零售部门等“新”经济企业,业绩表现明显优于建筑业、制造业、采矿业和房地产业等“旧”经济企业。
  “如果未来三至五年新经济的规模逐步扩大,足够抵消旧经济放慢带来的影响,中国经济可避免衰退式调整。”财新智库董事总经理、原花旗大中华区首席经济学家沈明高说,“‘抓新放旧’应是未来政策的主基调。未来政策的重点在于:第一,加快改革政策落地,释放新经济的活力和潜力;第二,将资源配置向新经济倾斜,而不是过度依赖房地产业加杠杆;最后,加快培养创新型人才,提高新经济效率。”
  (新华社记者姚玉洁、王政、连振祥、杨毅沉、袁军宝、王攀、陈刚、王新民)
  《 人民日报 》( 2016年04月30日 05 版)
大数据如何改善社会治理:国外“大数据社会福祉”运动的案例分析和借鉴
热点聚焦吴湛微 禹卫华
发布时间:2016-1-18  发布人:本站  源自:本站
    
  基金项目:国家社会科学基金重大项目“群体行为涌现机理及风险辨识研究”(编号:11&ZD174);教育部人文社科基金一般项目“基于社交网络的老年人健康传播应用研究”(编号:14YJC860029)
  作者:吴湛微,上海交通大学媒体与设计学院讲师;禹卫华,上海交通大学媒体与设计学院副教授,上海 200240
  doi:10.3782/j.issn.1006-0863.2016.01.20  
  一、背景
  今年,国务院印发《促进大数据发展行动纲要》明确指出大数据将成为提升政府治理能力的新途径,提出:建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,…,推动政府管理理念和社会治理模式的进步。
  与此同时,国外学术界和政府管理部门近年来也发起了一项“大数据社会福祉”(big data for social good)运动。与我国的目标相似,该运动也尝试将大数据技术与社会治理相结合,以数据驱动的方式应对现代社会中面临的一些复杂问题,增进社会福祉。在政府层面,华盛顿、伦敦、慕尼黑、纽约等做了不少探索,成功运用大数据为政府治理问题提供了支持;在研究层面,ACM、IEEE等国际学术联合体设立了专题会议讨论大数据与社会治理的结合;在社会层面,企业、高校、公益组织等开始积极探索应用模式。我们认为总结这些初期探索的经验将有助于我国各级政府更快更好地发展大数据社会治理。
  此外,我们发现在目前与大数据政府治理相关的研究文献中,关于宏观层面和理论建构方面的研究已有不少[1][2][3],但涉及微观层面能对具体操作提供借鉴的案例总结还不充分。因此,本文尝试从案例研究出发,总结大数据可以改善社会治理的一些应用领域、模式和方法,以及实施过程中值得注意的一些问题,希望能为大数据社会治理实践提供更多可实际操作的经验借鉴和创新思路。
  二、案例选择和综述
  我们从公开资料中广泛收集了261个案例,并通过三次筛选最终总结了41个案例。
  通过对案例集的元数据进行统计,我们首先识别了目前国外大数据社会治理的主要关注领域,包括:(1)社会安全(31.7%),主要涉及治安、消防、食品安全、交通和灾害等,主要关注点是通过大数据实现安全事件的早期发现和介入、减少损害;(2)开放数据接口(17.1%),主要涉及通过可编程接口获取数据的方法,主要关注点是支持更多数据产品和数据服务的开发和应用;(3)城市建设(14.6%),主要涉及街道、公共设施等选址规划和维护,主要关注点是通过大数据提高城市建设的市民参与度和满意度;(4)社会保障(12.2%),主要涉及为弱势人群提供帮助,主要关注点是通过大数据发现最需要帮助的对象及整合可以提供帮助的社会力量;(5)儿童与教育(9.8%),主要涉及为儿童成长和教育提供支持,主要关注点是通过大数据更有效地分配教育资源或定位困难学生帮助其完成学业等;(6)就业与创业(7.3%),主要涉及为就业和创业提供支持,主要关注点是运用大数据识别供需不平衡并积极加以引导,如弥补“技能沟”等;(7)环境与可持续(7.3%),主要涉及降低能耗和污染,主要关注点是利用传感器等数据识别和排查污染和耗能高发地区,以便早期发现和介入。
  除去作为底层服务的开放数据接口建设之外,在应用方面,社会安全、城市建设和社会保障问题受到最多关注。合计约三分之二的成功案例来自这些领域,既说明这些问题急需解决,又显示了大数据可以在其中有所作为。
  三、大数据用于改善社会治理的模式总结
  通过对案例集的进一步分析,我们识别了国外大数据社会治理的一些常用模式,可以作为借鉴。
  (一)大数据开放,提高基础服务能力
  这一模式就是将已有的数据通过一个开放的网络平台免费提供给所有需要的人。开放数据不但可以给市民直接提供服务,也可以为其他政府部门、科研机构以及公益组织提供进一步整合和利用数据的机会,从而给社会治理提供间接帮助。因此,建设开放平台已经成为各国大数据社会治理的基础模式。根据开放数据统计中心(open data census)的统计[4],全世界已有97个国家或地区建立了开放数据平台,按照其评分中国目前排在57位,美国排在第8位,英国位列第1。从我们收集的案例来看,美英采取的方式都是各城市分别建设大数据开放平台并由国家常设机构统筹各地数据建立统一检索平台。以美国为例,纽约市的DataBridge平台、洛杉矶市的LAOpenData平台等分别负责各自的开放数据,而美国总务署负责全国层面的数据统合平台data.gov建设。这种以市为依托、以国家常设机构统合的模式实行起来比较灵活,但也有一些问题,就是各市和地区的数据平台建设因经济水平和当地政策的差异而产生较大差别。在最近的美国开放数据评分中,洛杉矶、纽约和旧金山是分列前三的城市,评分几乎是排名靠后的城市(如伯班克、休斯顿等)10倍以上。因此,也有一些研究者提出这种“数据沟”(data gap)的现象是不是会导致地区差异进一步扩大。[5]本文案例,无论是完全由政府自主实施、还是由研究机构、非赢利组织或志愿者参与开发,都使用了一种或多种开放平台数据源,其中17%的案例专门致力于开放数据平台的接口研发,体现出开放平台对于促进数据利用的重要价值。
  (二)大数据决策,实现科学决策
  这一模式将原始大数据加工成能解释、预测社会现象的精炼数据,用于帮助决策者掌握更全面的信息或更有力的证据,从而增强决策的科学性。通过分析案例集,我们发现有两类基本方法被大量使用。
  第一类是关联,即广泛收集可能与待解释现象相关的大量数据然后筛选出关联度最高的一组数据或计算成一个指标,以此为依据辅助决策。例如,为判断哪些建筑物容易发生火灾,纽约消防局筛选了消防、建筑、治安、经济、城市建设等多个部门的数据,从中找到60余个与火灾发生关联最大的数据,并以此为依据计算了建筑火灾危险指数。使用该指数,消防局派遣视察人员对高危区域进行日常排查,有效降低了火灾危害。此外,洛杉矶、旧金山等地利用用电、用水、垃圾和投诉等生活数据与居住行为的关联性来排查建筑非法改装和群租行为,为治安和建筑风险治理提供依据;芝加哥公共健康部门利用餐厅的历史记录、市民投诉、商业数据、周边环境等数据对餐厅的食品安全进行排查;伊利诺伊州使用医疗数据、孕妇群体的历史数据和地区经济社会数据来关联最需要帮助的年轻孕妇,提高社会福利并改善生育率,等等。
  第二类是预测,即根据现有数据预测未来可能发生的事件,并提前做好预案。例如,多地劳动部门根据就业、企业、经济和教育数据分析劳动技能的供需趋势,引导企业、就业者和教育者提前规划和实施技能培训、填补“技能沟”,以达到充分就业的目的。此外,波士顿教育部门通过成绩、投诉、奖学金和学生活动等数据来预测学生辍学的可能性并提前干预;芝加哥公共教育部门根据学生、学校和教师数据,结合地区治安、住宅、人口和经济发展数据预测辖区各学校的招生人数,并提前划拨公共教育经费;纽约将全市33万余栋建筑物分为2400类并分别预测了火灾发生情况和拟定针对性救火方案,有效提高了救火效率、降低了火灾损失,等等。
  在本文案例集中,有59%的案例为大数据决策服务,其中28%使用了某种关联方法,18%使用了某种预测方法,13%同时使用了两种方法。
  (三)大数据沟通,改善外部环境
  社会治理总体上有利于社会福祉,但也不可避免会对一部分群体带来短期利益的损失。大数据说服利用数据的客观性,以对公开大数据的呈现为依据,引导广大市民自行从整体和长期的角度进行理性思考和辩论,有利于获得更广泛的关注和支持,改善政府治理的外部环境。例如费城使用一种称为Textizen的应用向市民的手机发送短信通知目前正在制定的政策法规、并投递调查问卷,调查结果被作为施政的依据以可视化方式在网站公布,以求凝聚社会共识。此外,纽约市使用一种LBS应用让市民在地图上提出建议,以确定公共自行车租赁站的设置地点,获得广泛支持;佛蒙特州根据位置信息向市民推送粮食捐献政策和捐献点位置,说服市民捐献保质期内可能吃不完的食物,等等。
  大数据技术也可以用于收集社会数据,例如通过社交网络,了解群众观点,或改善群众关系,并有利于说服。Kosinski等发现仅通过社交网站(如facebook)的点赞数据即可推测用户的年龄、性别、种族、政治观点、宗教态度等,从而可以根据这些数据有针对性地投放精心设计的说服信息。[6]类似的方法已在美国大选中成功运用。
  在本文的案例集中,有15%的案例使用了某种形式的大数据沟通。
  (四)大数据群体智慧,弥补政府资源不足
  社会治理的政策设计和执行都需要大量的人力物力,一些任务可能极为细琐繁复,完全依靠政府力量往往难以完成或者效率不高。这一模式通过发动群众参与大数据建设,利用群体智慧(wisdom of crowd)来弥补政府资源的不足。群体智慧可以从数据、技术和人力资源等多个方面弥补政府的不足,对大数据社会治理起到极大的支持作用。例如,波士顿市经常下雪,消防栓很容易被雪埋住找不到而耽误消防任务。由于消防栓众多,日常维护光靠消防局显然人手不足。因此波士顿消防局开发了一个称为“认领消防栓”的应用,邀请居民认领一个住宅附近的消防栓,帮助除雪等日常维护,受到居民的积极响应。类似的案例有,英国借助群体智慧维护道路和附属设施;纽约发动群体智慧利用公共空间设计环境艺术和扩大绿化;芝加哥利用群体智慧帮助流浪汉和孤寡老人等。此外,多地政府以支持数据竞赛、工作坊和夏令营等形式发动高校研究机构、公益组织和有条件的个体自愿者基于开放大数据设计、开发数据产品和应用,服务社会,均取得良好效果。
  在案例集中,有多达82%的案例使用了某种形式的群体智慧,74%的案例中使用了高校、行业组织等提供的开源软件。
  四、推进我国大数据社会治理过程中值得关注的一些问题
  从上述总结来看,“大数据社会福祉”运动与《行动纲要》中提出的“用数据说话、用数据决策、用数据管理、用数据创新”思路不谋而合。所涉及的案例可以视为对《行动纲要》实现方法和操作细节的有益补充,因此具有较强的借鉴价值。此外,通过比较我们也发现了一些容易忽视的问题,值得在未来发展过程中给予关注。
  (一)既要重视数据变大,也要重视大数据变小
  由于自然和社会现象的复杂性和普遍联系性,要准确描述和解释各种复杂现象,就必须尽可能搜集相关的数据,这就导致了数据不断变大,从而产生了大数据。然而,数据变大并非大数据的最终目的而仅仅是中间产物,这是因为:过于庞大的数据无法为人类直接使用,也就不可能对人类决策产生帮助。因此,在数据变大的同时,还必须考虑让大数据变小的方法,以便于决策者使用。通过研究案例集,我们总结了两种让大数据变小的常用方法。
  第一种是从对数据的加工入手,包括对数据进行过滤、排序、压缩、计算等操作。经过加工,有时甚至可以用一个指数来表达海量数据的核心意义。例如,谷歌将无数搜索和人群活动数据加工为一个流行病指数、纽约将大量建筑和火灾相关数据浓缩为一个火灾危险指数等都体现了这一思路。只有将大数据加工到足够小,才能真正为决策者所用。
  第二种是从对数据的表达入手,主要是对数据进行可视化处理。以数字形式呈现,人类一次只能理解一个数据;但以图像形式呈现,人类一次可以理解很多数据。因此利用人类认知能力的特点,采用可视化形式呈现数据,也是让大数据变小的有效方法。在本文使用的案例集中,除去单纯的数据接口以外,有高达94%的案例使用了数据可视化。
  要用好大数据,数据变大(原始数据积累)和数据变小(数据处理和数据可视化)其实缺一不可,但目前我国的大数据平台仍普遍停留在能“大”不能“小”的状态。
  截至10月15日,我国的上海、北京、贵州三大数据平台分别提供491类、303类和22类(大类,未细分)开放数据,均仅提供数据文件。而美国洛杉矶、纽约和旧金山三个数据平台分别开放数据1187类、1250类和786类。单从数量来看,中外数据平台的原始数据相差并不大。但国外数据平台普遍提供数据排序、过滤、计算等分析模块和多种可视化工具,让大数据变小,便于理解和使用。相比之下,国内平台仅提供原始“大数据”,一般公众很难有效运用,导致利用率非常低。平均用户访问量的对比也证实了这一情况:国内数据平台的平均访问量只有数百次,约为国外同类平台的1/100到1/1000。
  (二)既要重视数据平台,也应重视数据应用和服务
  除了数据平台以外,大数据更有价值的一面是将数据深度加工后融入日常生活,这就需要开发多种多样的高可用性数据应用和服务。这些应用和服务可以增加数据平台的使用率,提高社会治理水平,改善人们的生活,并创造新的就业和发展机会。根据北京、上海、贵州三个大数据平台官方网站显示,各自的应用数量分别为15个、75个和6个。作为比较,仅2015年纽约市举行的NYC BigApps比赛就征集到452个应用。下载量的差距更大,最大可达数百倍。经过我们的分析,国内应用大多使用单一数据下载量的差距更大,最大可达数百倍。需求分析和界面设计也存在一些不足之处,造成可用性不高。此外,数据接口服务的差距也较大,如纽约市提供11种,而国内平台仅北京提供了1种。
  不解决好应用和服务的问题,重金打造的开放大数据平台很容易“空心化”,难以对社会治理和社会福祉产生应有的支持。这个问题应当引起重视。
  (三)有必要重视对群体智慧的运用和发展
  我国大数据平台缺乏应用的现状与未能积极利用群体智慧有很大关系。大数据平台建设主要是技术问题,可以通过一两个技术过硬的企业来完成。但大数据在社会各领域的运用则完全是另一回事,单纯依靠个别企业不可能理解千变万化的社会问题和群众需求。因此国外政府大数据治理过程中普遍尝试引入社会群体的力量来帮助收集数据、识别需求、开发应用以更好地服务社会,即群体智慧。目前主要有三种推进方式:
  第一种是政府自身发起大数据应用竞赛。例如,美国政府为了鼓励使用data.gov的开放数据,专门建立了challenge.gov网站,持续发布数据竞赛,最高奖励达2000万美元。除此之外,美欧各城市也经常发起数据应用竞赛。最早的一次是2009年华盛顿市耗资5万美元组织的政府开放大数据APP开发大赛,在30天内征集到47款应用。这些应用后来发展成为估值230万美元的各种软件产品。[7]
  第二种是利用高校研究机构学术优势开办工作坊、组织夏令营。目前,哈佛大学、芝加哥大学、华盛顿大学等高校都经常组织“大数据社会福祉”工作坊和学术夏令营并提供专项资金支持。这些工作坊和夏令营与所在地政府合作,全社会征集参与者,针对具体的社会治理问题设计开发了许多成功的数据产品,并普及了数据思维和数据产品的设计开发方法。
  第三种是号召行业组织和公益机构利用开放大数据。例如,www.drivendata.org等互联网组织面向社会福祉发起专题活动并提供奖金;Datakind、Bayes Impact等非盈利机构致力于推动大数据运用于改善弱势群体生活水平等,很好地弥补了政府和企业未能及时关注的一些社会问题。
  这三种方式中,目前仅第一种在国内得到过应用,且规模较小,未能引起社会关注。善用群体智慧,可以通过小投入牵动大收益,值得予以重视。
  五、结语
  本文的研究说明,我国的大数据社会治理还刚刚起步,存在很大的提高空间。但我国各级政府的执行力很强,只要能将建设热情和对成功经验的借鉴结合起来,相信我国的大数据社会治理一定能得到快速发展,并对提高全社会的福祉起到应有的推动作用。
  [参考文献]
大数据在应急管理中的应用
马奔 毛庆铎
2015年03月11日10:46   
基金项目:教育部哲学社会科学重大攻关项目“社会稳定风险评估与社会矛盾预防研究”(编号:11JZD029)。感谢匿名评审人和清华大学公共管理学院薛澜、彭宗超教授的修改意见。
作者:马奔,山东大学政治学与公共管理学院副教授、副院长,清华大学中国应急管理研究基地(北京哲学社科规划办资助)兼职研究人员;毛庆铎,山东大学政治学与公共管理学院硕士研究生,济南 250100
[摘要]当前大数据正在改变世界,而数据收集和分析则是提升应急管理功能的重要手段。在对大数据内涵和具体案例进行分析后就会发现,大数据在应急管理中的应用主要有大数据技术和大数据思维两种方式。在应急管理的事前准备、事中响应和事后救援与恢复的每一阶段都可以引入大数据的应用,每个阶段对大数据的应用程度也会因其需要应对内容的不同而有所差别。大数据的应用有助于提高应急管理效率、节省成本和减少损失。我国需要在大数据战略、大数据开放政策、大数据在应急管理中具体应用形式等方面做出部署与探索。
[关键词]大数据;应急管理;大数据技术;大数据思维
[中图分类号]F328[文献标识码]A[文章编号]1006-0863(2015)03-0136-07
欧美一些国家已经开始把大数据运用到应急管理中,并取得一定成效,当前国内实务界和学术界虽然开始关注大数据的应用,但相关研究还比较缺乏。本文根据大数据的内涵,归纳了大数据在应急管理中的应用方式和基本框架,总结了大数据在应急管理中的实践案例,期望对我国大数据在应急管理中的应用和研究有所启示。
一、大数据的内涵和在应急管理中应用的基本框架
关于大数据的内涵并没有完全一致的理解,如按照麦肯锡全球研究所(McKinsey
Global Institute)的定义,大数据指的是超出常规数据库软件工具所能捕获、存储、管理和分析的超大规模数据集。[1]也有的从数据集的特点入手,界定了大数据的三个主要特点,即常用的3V界定:规模性(Volume)、多样性(Variety)和高速性(Velocity)。[2]舍恩伯格在《大数据时代》中反复强调:大数据是人们获得新认知、创造新价值的源泉;大数据还是改变市场、组织机构以及政府与公民关系的方法[3],强调以大数据技术为基础的新思维和新方法。
由于对“大数据”的认识存在差别,综合不同的定义看,“大数据”在不同领域内包含三层含义,可以分别从现实和技术两方面加以阐释:第一层意义上的“大数据”指的是数据的巨量化和多样化,现实方面指的是海量数据,技术方面指的是海量数据存储;第二层意义上的“大数据”指的是大数据技术,现实方面指的是对已有或者新获取的大量数据进行分析和利用,技术方面是指云存储和云计算;第三层意义上的“大数据”指的是大数据思维或者大数据方法,现实方面指的是把目标全体作为样本的研究方式、模糊化的思维方式、侧重相关性的思考方式等理念,技术方面是指利用海量数据进行分析、处理并用以辅助决策,或者直接进行机器决策、半机器决策的全过程大数据方法,这种对大数据的认知方式涉及到“大数据项目”或“大数据技术应用”的认知,并由此可以延伸出大数据视角下的应急管理方式。
大数据在应急管理中的应用方式分为两部分:大数据技术和大数据思维。大数据技术既包括诸如数据仓库、数据集市和数据可视化等旧技术,也包括云存储和云计算等新技术;而大数据思维则是从海量数据中发现问题,用全样本的思维来思考问题,形成了模糊化、相关性和整体化的考虑方式。[4]大数据技术与思维相互融合和作用,共同形成了大数据的应用,并对包括应急管理在内的很多公共管理领域产生了巨大影响。如英国皇家联合军种国防研究所2013年的报告提出,大数据的应用包含四个特征:快速的收集、分析、决策和反应机制;在分析和结论方面有极高的可信度;无论是在个人还是群体的行为预测方面都应该更有预见性和更高的准确度;重视数据和充分利用,最好是能够多次使用数据。[5]
按照突发事件发生的时间顺序,整个应急管理大致可以分为事前、事中和事后三个阶段,包括预防准备、监测预警、应急处置、善后恢复等多个环节。由于当前大数据在应急管理中大多处于技术应用阶段,并没有针对应急管理中大数据的应用进行严格分类,因此本文根据应急管理最简单的时间序列划分法,探讨了大数据在应急管理中事前、事中和事后应用的基本框架(见图1)。
当然,由于应急管理针对的事件类型不同,并非所有的应急管理领域都会涉及到大数据在三个过程中的应用。有时候可能并不需要进行数据的重新收集和硬件系统的整合,而只需要进行管理模式和思维的变化,就可以形成新的大数据应用方式,这也是大数据在应急管理甚至是公共管理应用中不同于纯技术导向应用的核心所在。
资料来源:作者整理
二、大数据在应急管理中应用的具体分析和实践
由于应急管理三个阶段的任务不同,且不同性质的突发事件也有发生机理和破坏方式的差异,针对不同突发事件进行应急管理时,所侧重的应对阶段也有所不同。如地震、海啸等发生突然,现场反应时间很短,进行“事中响应”非常困难,需要着重预防和救援;而森林火灾等预防困难,救援难度大,现场应对更为重要。因此,就需要根据突发事件的不同特点,在不同阶段应用大数据,可以起到事半功倍的效果。
(一)事前准备
在事前准备阶段,需要为大数据的应用进行相应的管理和设施准备。管理准备指的是与大数据管理、大数据方法相匹配的人事准备和管理提升。设施准备指的是大数据应用所需要的硬件和软件设施。硬件设施主要涉及新技术背景下的数据采集,而软件设施不但涉及到新数据的采集,也可以针对旧有数据进行分析和挖掘。
1.两个层面人员的管理准备
主要是对中上层管理人员和基层管理人员的培训和管理。中上层要进行相应的领导体制变革和知识培训,下层则可能要新设机构、增加专业技术人员和信息采集人员,并做好培训。为了响应大数据时代的到来,在管理层面,如美国政府在2009年任命了联邦政府首任首席信息官,负责指导联邦信息技术投资的政策和战略规划,负责监督联邦技术应用的有关支出,监管企业等,以确保在联邦政府范围内,系统互通互联、信息共享,确保信息安全和隐私,此外首席信息官还与首席技术官紧密合作来推进总统有关大数据应用的技术设想。[6]英国提出“相关部门必须重视大数据管理......需要任命两名三星上将担任“大数据”监督官,或者国防安全部门内部的大数据指挥官;这两名上将应该分别来自国防部和联合部队司令部,并分别负责两部分的大数据工作。”[7]而基层管理人员需要进行相应的培训。英国皇家联合军种国防研究所的“大数据化”建议帮助国防部门转变成为“大数据化”组织,对需要进行大数据化的部门安排培训,人员需要包括中层以下的管理人员和项目专家,即数据分析官;明确工业部门对大数据管理的价值和作用,包括作为后备力量和为国防安全领域提供专业技术人才。[8]
2.大数据应用的设施准备
设施准备主要指为大数据的应用提供基础设施,随着技术的不断发展,“传感器”将成为大数据应用中的重要一环。上世纪60年代以来,美国为预防风暴和海浪袭击而建立海浪检测系统。2005年,国家数据浮标中心在原有设备的基础上架设了大量新型海洋地理传感器,包括海浪流向传感器等。此项目传感器实时产生大量数据,用以实时监测海浪情况。按照该项目划分,全美海岸线被分为7个部分,每个区域的分支网路都是先独立布点,然后在区域联网的支持下,根据海浪运动的物理原理扩展联网。全部联网完成以后,整个监测网包括296个传感器:其中56个分布在远海,60个分布在大陆架外部,47个分布在大陆架内部,133个分布在海岸线附近,其中,有115个布点是2005年最新增加的布点,另外有128个布点刚刚完成海浪流向测量的升级。[9]这项计划产生极大的社会价值。根据数据统计,商业捕捞是全美最危险的职业之一。在2008年,该中心的报告称,该年度渔业从业者每十万人的死亡人数为155人,而全美所有行业的平均死亡人数仅为每十万人中4人。在渔业相关的所有死亡因素中,79%是由天气原因造成的,其中40%是由巨浪导致。[10]虽然无法具体统计海浪预测系统的预报拯救了多少人,但毋庸置疑的是,更好的实时海浪监测系统就意味着能救更多人。
大数据设施的准备还包括软件准备。软件的升级包括算法的更新,分析方法和数据处理方法的改进,多源数据的融合分析。在阿富汗,英军曾使用相关技术绘制一种“人肉炸弹地图”,将信息导入数据库,通过生物识别数据和图像来识别当地人口,判断关键信息,从而找出可能出现的恐怖分子。[11]在阿富汗战争最激烈的时期,美国国防高级研究计划局曾派遣数据科学家团队和可视化技术团队到阿富汗。在一个名为 “Nexus7”的计划中,这些团队将卫星数据与地面监控数据相融合,用以观察道路网中的交通流,以便作战人员定位并摧毁简易爆炸装置。[12]由于地面监控和卫星图像等硬件设备早为英美联军所部署,在阿富汗反恐作战中,图像处理技术、多源数据融合技术和可视化技术才是充分挖掘原有数据并使之产生价值的关键所在。
(二)事中响应
在事中响应阶段,大数据的应用能为政府、第三方组织或个人开展应急响应提供很大便利。对于政府而言,大数据化的应急管理意味着技术支撑基础上的融合与协作,它不但为协作带来很大便利性,也保证了日常业务连续性和应急处置及时性之间的平衡。对第三方组织或个人来说,大数据可以为应急管理提供更加便捷灵活的手段。
1.宏观和微观层面基于大数据信息流的多元应急合作
在宏观层面,整个应急响应可以分为决策指挥、现场应对和外界援助等三个层面,这之间以海量数据信息、高效计算能力和数据传输能力为基础,实现信息有效沟通和机器预测预判,进而帮助指挥部门协调各方、现场处置和救援、与外界通过信息沟通提供援助,实现多元化协作的应急处置(见图2)。
资料来源:作者整理
在微观层面,应对部门需要在应急处置和业务连续性之间保持平衡。大数据基础上的决策支持系统将成为强大的信息管理系统,能够做到实时报告,而且操作简易,能够同时集合多项关键指标的高效指挥决策辅助系统(见图3)。在大数据决策支持系统支撑下,交通、医护、警务、市政基础设施管理部门,需要及时沟通,为突发事件的处置提供有力的犯罪打击、充足的物力资源、及时的导航信息和必要的建筑图纸等。不同部门提供的信息,都需要纳入到大数据支撑的决策支持系统。如警务系统在接到报警后,将信息发送到决策支持系统,系统进行分析,确定事件的类型和位置,信息会在电子地图上显示,根据实践情况同时列出关键设备需求表,随后进行危机通报与应急响应。同时,交通部门将路况信息、可用资源和监控数据传输到决策支持系统,系统进行可视化操作,确定出通行路段和避免经过的路段,确定路线。医护部门根据决策支持系统的信息实时跟踪状态,可以有效调配可用资源,提高响应速度,与地理信息系统和地图系统相连以后,救护效率也会提高。
资料来源:作者整理
2.第三方组织或个人发布自发式地理信息
自发式地理信息是随着网络地图普及而出现的。普通民众可以在几乎没有相关专业知识的情况下,依靠自动或半自动的处理设备,使用地理信息系统绘制地图。特别在20世纪90年代以后,随着网络和GPS设备的普及,普通人进行定位和地图关联变得更加容易。这种方法在“大数据”概念出现之前就已有所应用。在谷歌的“我图”(My Maps)服务出现后,普通人也可以完成往常只有绘图师才能完成的任务。民众可以通过官方公布的坐标、自身获取的定位数据、或者网上未经证实的地理位置进行整理、关联、绘图,然后发布到网上。这一过程所使用的大多为开源数据,数据类型多样且大多非结构化。这种方法在应对南加州的森林大火时屡有应用,主要用来绘制火情地图以指导人们逃生和避险。
森林大火一直是南加州地区的梦魇,2007年7月到2009年5月期间发生的四场大火尤为惨烈。扎卡大火(Zaca Fire)始于2007年7月,持续两个月,这时居民主要依靠报纸、广播和电视新闻组成的政府信息系统了解火情,信息传递慢且获取被动。2008年7月,临近城市地带发生了盖普大火(Gap Fire),由无数帖子和网络相簿组成的自发式的理信息已经能为政府信息提供有益补充。到了2008年11月,圣巴巴拉附近的山上发生了“茶叶”大火(Tea Fire),网上迅速出现了各类自发式地理信息——文字报告、图片和视频。尽管谷歌没有立刻将这些信息整理发布,但是已经有一些当地报纸和社团组织办的网站来整理这些资料。同时一些志愿者发现,如果将搜集和编译后的分散信息整合进谷歌地图之类的电子地图,就可以制作出比政府信息还要方便快捷的灾害地图。[13]2009年5月,城市附近爆发杰苏斯塔大火(Jesusita Fire),许多组织和个人迅速建立了自发式地图站点,及时整合不断出现的自发式的地理信息和官方信息。政府公布的火灾边界图就是根据不断更新的市民报告做出的。在火灾后期,共有27个自发式在线网站,其中最广为人知的一个网站点击量超过60万。这个网站提供了许多灾害期间的必要信息,如火灾位置、疏散命令、紧急避难所位置等。[14]市民可以在政府通知之前自行选择撤离或采取防护措施。
由于政府信息缺乏良好的沟通渠道和证实信息的充分资源,所以其从产生到传递总是比自发式地理信息慢。尽管来自民间的信息也有可能产生错误,从而导致一些没有必要的撤离。但通过以上案例可以明显看出,自发式预报由误报而导致的不必要的撤离成本远比政府漏报的成本低,其应对灾害的重要意义也显而易见。[15]
在整个事中响应阶段,大数据的应用包括实时高效的数据信息收集、信息数据的迅速传递、多源数据集成处理、数据结果的可视化合成和最终实现机器或半机器化的辅助决策(详见图1)。数据收集方面根据应急管理主导者的不同有两种发展趋势:政府主导的专业应急管理团队信息收集逐渐专业化和高效化;以社会大众和社会媒体为依托的第三方应急管理力量则将信息收集方式发展为简单化和大众化的方式。信息传递方面大数据实时高效的特点要求信息传递方式不断创新,速度不断加快。数据的集成处理方面,根据大数据本身的特点,数据集成处理也具有巨量化、多样化和快速化的特点。可视化合成方面,应急管理所需的可视化结果必须简明直接和通俗易懂,第三方组织所使用的可视化方法还需要具有操作简便等特点。只有这样,大数据才能为事中响应提供快速而科学的机器决策或半机器决策。
(三)事后恢复与重建
大数据在应急管理事后的应用主要是在救援与恢复重建。目前在应急管理应用上比较新颖的是使用“分众(Crowd Sourcing)”的方式。“分众”是由大众通过网络分散完成工作任务,并通过整合后在网络上提供服务的一种方式。这个过程中使用的信息来源分散,体量巨大,并采取机器决策或半机器决策的方式利用信息。使用“分众”方法进行事后恢复与救援可以分为四个阶段:捕获信息,甄别加工信息、机器分析和迅速反应。捕获信息的方式可以是通过GPS定位发送自己的位置,也可以是通过社交网络发送某条文字信息。搜集到的信息会被汇集到分众平台上,这个过程可能需要机器与人协调完成。一些难以处理的信息会分配给志愿者进行加工,使之转变为计算机能识别的数据。如法语区内一条“推特”(Twitter)的信息可能并不适用于第三方软件处理,这时就需要志愿者先将这条信息翻译成英语,再将其中的关键信息提取分类,变得可为计算机处理。计算机会自动剔除无用和冗杂的信息,根据语义分析捕获含有有效信息的词条。随后,经过格式化的信息可以被计算机可视化或者作为统计资料加以利用,经过整合的信息可以发布在网上供众人浏览和使用。应急处置人员可以根据计算机的建议设计救援路线,配置救援装备,以最快速度抵达救援地点。
如2010年海地地震救援中,以“目击者”为代表的非营利网站利用“分众”方法起到了重要作用。总结分众式操作方法在应急管理中应用的流程图(见图4),可以看出,在灾害救援的过程中,需要有三个明确分工的角色完成整个操作:亲历地震的当地监测员、关联开放数据的网络操作员和救援组织中的信息官。
资料来源:作者整理
当地监测员通常是正在灾区的当事人。只要灾区当事人有一部能上网的手机,他就可以成为灾害应对活动中的一部分。当事人可以用多种方式发送求救信息,如推特(Twitter)或者脸书(Facebook)。推特可以通过话题标签将信息分类标注,经过分类标注的开源信息更容易被第三方识别和捕获。[16]
网络操作员通过捕获信息的第三方平台浏览到信息,并对信息进行处理。当求救信息是软件不支持的语言时,需要有另外的操作员(志愿者)完成翻译工作。随后,一条求救信息就可以被解析成几个不同的要素,从而由计算机进行识别和可视化。比如,“目击者”网站使用十个要素来描述一条信息,这些要素包括信息、标题、日期、位置(地点名称或者坐标)和需求等。这些要素是“海地目击者”团队设定的,每条信息中蕴含的需求都可以归入不同的类别中。然后,“目击者”报告平台利用CSV文档和简单信息聚合订阅(RSS Feed)的方式使得报告简易可读。最后,“目击者”还用一个交互式地图来公布实时报告。[17]
信息官指的是救援组织中负责搜集和处理信息的管理人员。信息官可以在网站上获取求救信息,从而迅速做出反应。信息官此刻至少可以确定目前急需的人道主义援助内容和地点。虽然开源信息的可信性并不能完全保证,但是,分众信息及其可视化在灾后最初的2-3天内,应用价值非常高。它可以用来指导灾情确认、救援实施以及其他可能需要协调的工作。[18]
尽管采用分众的方式对信息的捕获已经是非常便捷,但由于突发事件的紧急性,信息的实时接收与处理还是存在一定难度,分众平台上信息的真实性和准确性还需要确认,对信息官而言,如果能提前有时间学习平台的使用方法并了解其话语体系,灾后救援的效率将被大幅提高。目前,已有研究者通过相互关联的开源数据和分众处理的操作方法解决学习障碍、信息描述不清和真实性待定这三个问题。由于应急管理领域本身专业词汇缺乏且定义不清,在线共制平台的服务尚不完善,有时候也存在难以把信息官的数据端接入互联开源数据等问题。[19] 虽然该方法存在不足,按照目前的应用情况看,这种分众的方式潜力非常巨大。
三、对中国的启示
大数据的应用为我们提供了认识和解决问题的新思路,对中国有如下启示。
(一)制定国家大数据战略,加大对大数据投入
进入21世纪以来,特别是近年来,许多国家重视大数据在公共管理(包括应急管理)中的应用,并制定了国家级大数据战略。除美国的“大数据”战略外,澳大利亚在2013年8月明确提出了大数据国家战略并发布公共服务大数据政策[20];法国在2013年2月发布了《数字化路线图》,其中提到了支持大数据技术发展[21];日本在2013年6月正式公布了“创建最尖端IT国家宣言”,其中全面阐述了2013—2020年发展开放公共数据和大数据为核心的国家战略,旨在把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。[22]
许多国家还投入大量资金进行大数据研究,支持相关技术发展。英国在2013年1月宣布,将注资6亿英镑发展八类高新技术,其中投入1.89亿英镑用来发展大数据技术,以期在数据革命中占得先机。[23]法国则在2013年4月宣布,将投入1150万欧元用于支持7个未来投资项目,法国政府投资这些项目的目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。”[24]
各国的大数据战略表明,“大数据”并不仅仅是一个技术概念,它已经切实成为提高国家治理能力,改进公共管理水平乃至增强国家竞争力的重要因素。目前,广东省已经在我国率先试水大数据战略,并宣布要在近期开放一部分政府数据。[25]这是我国地方政府回应“大数据时代”的具体措施。但是相对于英、美等西方国家和日、韩等亚洲近邻而言,我国还没有形成完善的国家级大数据战略。
(二)制定大数据开放政策,逐步扩大数据共享范围
除了制定大数据国家战略外,还要重视制定配套的数据开放政策,如目前美国政府数据开放网站(Data.Gov)可供检索的数据集已超过10万项。继美国之后,很多国家也制定政策要求数据开放。可以说,政府数据公开与共享是大数据化改革的核心内容。2010年1月,英国政府建立的数据开放网站(Data.Gov.uk),除去地理信息之外,该网站建成之初便公布了3000多项民生数据。2011年4月,英国劳工关系部、商业部又启动了“我的数据”(MyData)项目,要求即使是商业公司收集的数据,如果记录的是公民个人信息,个人便有权查看和使用。目前已有十多家不同行业的大公司参与到此项目中。[26]
新加坡是亚洲地区的数据开放先行者。该国在2011年6月启用了新加坡政府数据开放平台(Data.Gov.sg),开放了60多个机构的8600个数据集,50%的数据是机器可读的。其中的OneMap是一个地理空间数据共享平台,目前有60多种不同的地图主题。利用这些数据,一些企业和政府部门已经开发了100多项应用,涉及停车信息、公共厕所、野猫管理等。[27]在亚洲,日本、韩国等国家也有类似计划。
从各国的趋势看,配合国家大数据战略制定数据开放政策和要求数据共享也是非常必要的。另外,“数据开放”已经成为各国共识,随着国际数据市场的逐步形成,没有符合国际标准的国家级数据公开标准,也就难以建立能与国际市场接轨的数据市场管理标准。“数据开放”俨然已经成为国际竞争力的一环,且欧美等国已抢占先机。所以无论从优化公共管理(包括应急管理)的角度,还是从增强国家竞争力的角度,抑或是规范数据市场的角度,由中央政府领衔制定国家级数据开放政策是非常必要的。
(三)探索大数据在应急管理领域中具体的应用形式
事前准备阶段,政府或其他部门需要为大数据的应用做出准备。在管理和权限设置上,有必要设置“大数据信息官”并赋予其具有改进组织流程的权限,以推进大数据在部门工作中的落实。在技术升级和设备使用方面,政府或其他部门要明确需要解决的问题,以需求为导向,进行一定设施的准备。
事中响应阶段,信息的有效聚合和快速传递是核心环节。政府或其他部门在使用大数据增强信息采集能力的同时,也要进行数据共享,建立统一的数据中心,以便在应急管理过程中提高效率。同时,在应急管理的事中响应阶段,指挥人员、专家技术人员和现场处置人员的联系也至关重要,建立高效的信息共享渠道也是很重要的方面。
事后处置和救援阶段,及时了解救援信息和对所获信息的处理最为重要。如果有明确的信号可以让应急处置人员快速了解需要救援的地点和所需救援内容,救援效率便可大幅度提高。大数据在事后处置的应用便是遵循这种逻辑:通过网络或者监控设备,采集需要救援的信息,用算法筛选整合这些信息,并将指令快速传达给应急处置人员,从而提高救援效率。
(四)完善隐私保护政策,注重公共安全和公民隐私之间的平衡
大数据时代,如何对公民个人隐私保护也很重要,最好能在公共安全和公民隐私之间达到平衡。2013年5月,爱德华?斯诺登披露了美国国家安全局自2007年实施的绝密电子监听计划,即“棱镜计划”(PRISM),允许FBI和NSA对包括微软、雅虎、谷歌、苹果在内的共九家IT巨头的数据进行监控和挖掘,直接或间接接触大量个人聊天日志、私人数据、语音通信、传输文件和社交网络数据。[28]尽管美国自我标榜“重视个人隐私”,但是公民个人的数据信息没有得到有效保护,引发了对“大数据时代”个人隐私的广泛讨论和关注。
2014年5月,美国总统办公室发布“大数据隐私”报告称,越来越多的传感设备和智能设备,使得政府或企业对个人信息的搜集无处不在。这些数据不但被用来进行实时分析,还被储存起来,成为一个人的“电子脚印”。[29]技术对个人隐私的威胁已经超出了原有法律框架。如果不对采集的个人信息使用进行有效规范,极有可能会出现大规模侵犯隐私的事件,从而使大数据信息采集成为一种“社会安全隐患”。因此,全面的数据隐私保护与最大的公共安全追求将是大数据时代面对的一个重要课题。
四、结语
“大数据”在应急管理中的应用具有很大潜力和价值,本文只是在理解大数据内涵的基础上,根据应急管理的特点,总结了大数据应用的基本框架和分析了实践案例等,由于大数据在应急管理中的应用本身就是一个交叉学科研究的主题,还有很大的研究空间,希望本文能引起相关应急管理研究者和实务人员的思考,为进一步促进大数据在我国应急管理中的应用提供更有质量的研究成果和实践。
[参考文献]
    中国大数据产业峰会暨中国电子商务创新发展峰会近日在贵阳开幕。随着大数据发展上升为国家战略,2016数博会已升格为“国家级”盛会。
    今年数博会的主题是“大数据开启智能时代”。以《促进大数据发展行动纲要》为基础,数博会共策划举办60余个主题论坛,云集了全球知名企业大佬、大数据领军人物、专家学者等两万多位国内外来宾,300多家大数据相关企业在贵阳国际会展中心展示新产品、新应用。
    那么,今年数博会带来哪些新看点?又有哪些新论断?
    2020年我国将成为全球数据中心
    阿里巴巴集团的技术委员会主席王坚指出,在人类的发展历史上,人类一直在消耗大自然的资源,但互联网让人类可以自主产生“数据”资源。数据资源要产生价值,唯一的途径就是靠计算。
    “云计算、大数据、人工智能、机器人,这些其实都离不开互联网数据和计算,当我们谈论云计算和大数据之时,应该更注意到计算和数据在互联网时代所带来的价值和影响。”王坚称,当计算成为公共服务,当互联网成为基础设施,当数据变为生产资料,一个新的经济时代就会到来,那就是计算经济时代。
    国家发改委副主任林念修也表示,当下,信息经济迎来了快速发展的黄金时期,以大数据为代表的信息经济对促进传统产业升级、培育壮大新动能必将发挥越来越重要的作用。
    林念修称,据预测未来5年,中国大数据产业规模年均增长率将超过50%,到2020年中国的数据总量将占全球数据总量20%,届时中国将成为世界第一数据资源大国和全球数据中心。
    政府数据应当开放
    大数据时代,数据是基础资源。小i机器人创始人、董事长袁辉表示,现在80%的数据在政府手上,政府首先要明白数据为谁服务,数据来源于民,也要为人民服务。贵州、贵阳已做到数据开放了。
    阿里巴巴集团副总裁、《大数据》、《数据之巅》作者涂子沛也表示,政府掌握大量数据,贵阳之所以建立交易所,正是认识到了数据是资源,要让它流动起来。
    国家行政学院电子政务专家委员会副主任汪玉凯表示,大数据时代来临对政府既是挑战又是机遇。绝大部分政府机构由封闭、保密,转向开放,是非常“痛苦”的过程。政府需要做到两个开放:一是客观信息要开放;二是数据要开放,政府部门之间打破行政壁垒,而且数据还要向社会公开。
    大数据建设要避免过热
    中国科学院院士、上海交通大学副校长梅宏在会议发言中提出,大数据是信息化3.0阶段的象征,是信息技术发展和互联网延伸带来的“自然现象”。大数据建设和发展,要避免出现过热,急需顶层规划引导。
    梅宏指出,大数据驱动的新时代为信息化3.0时代——以数据的深度挖掘与融合应用为特征智慧化阶段。从上世纪80年代的PC机开始,是信息化第一波浪潮,1995年之前是信息化1.0时代;之后进入信息化2.0时代,也就是以联网应用为特征的网络化阶段。
    他认为,大数据是信息技术的不断廉价化与互联网及其延伸所带来的无处不在的信息技术应用所产生的“自然现象”,源于摩尔定律驱动的指数增长模式、技术低成本化驱动的万物数字化、宽带移动互联等。
    梅宏强调,大数据在中国已经成了各行业的共同旗帜,包括其他领域,还有非技术学科的领域都开始汇集在大数据的概念之下,毫无疑问是过热了,大数据已经成为各行各业争取资源的“马甲”。
    梅宏说,国务院虽然已经发布《促进大数据发展行动纲要》,但实际上大数据发展还面临法律不健全、标准不统一、技术不到位等问题。
    梅宏呼吁,大数据正引发新一轮信息化建设新潮,急需顶层规划和示范引导,积极谋划、谨慎推进,避免一哄而上,造成超前投资或重复投资。
    数据安全强调自主可控
    中国互联网协会理事长邬贺铨指出,大数据本身是一个产业,现在全世界大数据市场是由硬件和软件服务构成的,“现在大数据产业基本上90%以上都是外国公司,在大数据产业里面,我国现在仍存在短板。”
    邬贺铨认为,大数据安全问题至关重要,“大数据意味着海量数据的汇集,会引来更多潜在供给者。黑客在大数据时代里面有多维的数据,把它们关联起来很容易就破解一些关系,可以借此入侵企业的网络”。
    邬贺铨表示,国产的设备虽然是自主研发的,但未必是安全可控。自主不等于可控,只要有漏洞就可能成为非法获取信息的来源,“据安全机构统计,我国高达16%的网站存在安全漏洞和后门,可以说网站和应用系统的漏洞是大数据平台面临的最大危险。
    针对如何实现自主可控,中国工程院院士倪光南提出“自主可控”的评估方法与推动办法。
    倪光南认为,“自主可控”是实现网络安全的前提,要达到“自主可控”,产业链各环节都要满足要求,比如,供应产品的企业资质要有保障,制造质量、工艺控制等有标准。相比而言,美国的政府采购政策,对自主产品所占比例有要求,而中国却没有。他希望经过实践,探索解决这些问题。
    徐丽莉整理撰写
 

大数据的本质是什么篇(2):深度 | 大数据时代究竟带来了什么? 大数据的本质是什么?

数据,让一切有迹可循,让一切有源可溯。我们每天都在产生数据,创造大数据和使用大数据,只是,你,仍然浑然不知。今天我们不聊产业不聊宏观思想不聊市场规模,仅从普通人的角度来和大家谈谈大数据。 要想明白大数据,首先就要明白数据的意义。百科对数据的特性进行了定义:
「数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。」
举个例子来说:
A、小丽是个漂亮和自立的好姑娘;
B、小雅今年22岁,身高165cm,三围88/62/90,瓜子脸,长头发,做文职工作,月薪8000元,谈过1次恋爱,英语四六级已过,正在学茶道和插花艺术;
A的描述方式是直接给结论,如果直接用A的方式介绍小刘,听者不会直接形成印象,且对小刘的具体情况并不了解;
B的描述方式是用数据阐述客观事实,年龄和身高可直接了解小刘的基本情况,三围说明了体形,瓜子脸和长头发说明“漂亮”,月薪8000元说明自立,只谈过一次恋爱说明简单,四六级已过说明英语好,学茶道和茶花说明积极,温婉;
如果朋友这样给你介绍女朋友,你更想认识谁呢?毋庸置疑,肯定是B。
这就是数据的意义,让事情可度量、客观,数据维度清晰的描绘了事实,也更具说服力。
那么大数据时代给我们的生活带来了哪些便利与好处呢?
1、节约时间,更有效率
先看看我们身边经常用到的一些服务,比如我们经常用到的快递、外卖和共享单车,这些APP的后台都有一张“大数据”。快递后台会根据数百亿历史地址去做预测,用大数据算法来做智能分单取代了原来的人工分单,可以最大程度地优化路线,降低人工配单时间,还能减少错误操作,节省人力成本。快递只是整个物流领域里漏出的一只角,大数据技术可以帮助全部环节的物流供给与需求匹配,优化资源配给,另外,根据消费者习惯偏好,大数据可提前预测消费者需求,将商品物流环境和客户的需求同步,提前计算出运输路线和配送路线,缓解物流压力,提高用户满意度。
需求匹配这一点非常重要,就近收取和派送快递,就近送餐,就近扫描二维码解锁共享单车,节省了我们盲目地一个一个去找的时间,其实也让提供生活服务的人节约工作时间,让工作更加有效率。
当然,这对企业而言,也意味更少的意外和更低的人力成本。
2、大数据让人们更容易借到钱 让老赖无处遁形
对于普通人来说,开通信用卡需要提供收入学历等证明;在农村,你需要向信用社借钱,也需要提供可抵押的不动产等。现阶段的信用卡是容易办到了,可是额度还是远远满足不了剁手党的需求。去银行借钱也很不方便,拿号,排队,填一大堆单子等等。
对于办理信用卡和贷款来说,银行需要的都是“指定数据”,指定的收入证明,指定的不动产证明等。而互联网金融(如:蚂蚁花呗、蚂蚁借呗和京东白条),他们需要的数据更多,但是这些数据不需要完全由借钱的人来提供,他们会根据借贷人在电子商务的消费数据、绑定的银行卡数据、行为数据等等来做评分授信。
有了大数据的支撑,以前不容易借钱或者说借钱慢的现象有了大大的改变。对了,你的芝麻分多少?支付宝的花呗和借呗就是根据芝麻分数来进行授信的。
大数据让借钱容易了,对于赖账的人,大数据也有十分重要的作用。最高人民法院执行局2013年11月14日与中国人民银行征信中心签署合作备忘录,共同明确失信被执行人名单信息纳入征信系统相关工作操作规程。现在,只要你去《中国执行信息公开网》http://shixin.court.gov.cn/ 就可以查询失信被执行人的信息。
3、大数据让人更加聪明更智慧
人的智慧是无穷的,但是人的计算能力和记忆力是有上限的。就拿我们最爱玩的《王者荣耀》来说,你知道哪个英雄的胜率最高吗?有人会回答是武则天,也有人回答是诸葛亮,更有人回答是亚瑟,但是通过后台统计分析了广大玩家数以万计的数据来看,2017年6月的最新数据,《王者荣耀》胜率最高的前3英雄分别为牛魔、蔡文姬和宫本武藏。根据官方提供的这份数据,用户可以做出最优的选择,更有效率的上王者。
大数据一个很大的功能是“预测”,而预测的基础是历史、现在以及相关的数据(比如说天气)。让事务可提前预测,从而可以做出最优选择和部署复杂情况的应对方案,这是大数据的智慧之处。
4、大数据思维可以帮你省钱
都说会花钱的人才会赚钱。事实上,会大数据思维的人,首先学会的是省钱。同样的商品,在互联网不同的电商平台有着不同的价格;同样飞往洛杉矶的机票,不同的组合,不同的航空公司,不同的转机方案,所花费的钱也有所不同。我们常常能够看到的“比价网”背后运用的就是大数据原理。
会省钱过日子的妈妈婶婶们都爱记账,我们可以把记账的过程叫做“数据收集”。
每个月回顾上个月的家庭开支,你会发现自己的每一笔钱是如何花出去的,同时也能知道哪个方面的钱花太多或者花得不值当,这个过程可以理解为数据的积累(存储)与计算。
分析每个月的开销,可以让你积累“花钱”经验,规避“花钱”陷阱,下个月就知道该在哪个项目上面进行省钱,这就是数据分析与辅助决策了。
同样的,在互联网公司,每一笔广告费用花出去都是要计算投资回报率(Return On Investment,ROI)的。再拿《王者荣耀》举例,同样是300万的广告费用,投入不同的用户渠道,所带来的收益是不尽相同的。那么,选择哪个会有更低的获客成本,让推广更有效率?
用大数据分析,你能计算出每个用户渠道的价值,也能计算出哪些渠道有水分和刷量。用最少的市场费用拉来最多的用户,产生最多的产出,ROI越高,说明钱花的地方就更正确,省下来的广告费用还可以继续投,何乐不为?
5、大数据让工作可以量化,更加公平
大数据思维在工作中也可以用到。职场上经常会遇到两种人,前者喜欢追着领导拍马屁,混各种饭局;后者兢兢业业踏踏实实的工作,但是不容易让人看到。那么作为直属领导,给谁升职好呢?还是拿成绩来说话吧。每个月你完成了多少工作量,开发了多少新客户,收到了多少订单?公众号粉丝涨了多少?卖出了多少包咖啡?等等,这些都是可以拿来作为证明的。为公司创造更多价值的员工,升她的职加她的薪水都是应该的,实至名归。
如果,你踏踏实实工作得不到老板的青睐,那么,从现在起,开始每日记录你的工作情况,收集到更多可以证明你工作成果的数据,去找老板谈加薪吧。数据是客观的。
6、大数据思维可以助你发现隐形需求
2012年2月27日,淘宝网数据盛典公布了2011年一系列消费数据。通过对网购人群的消费习惯进行分析,预测2012年的流行趋势,以地图的形式展现中国不同地区的消费偏好,其中新疆网友最爱网购比基尼。
那么这个数据是不是说明新疆地区比基尼的消费人群大于其他地区呢?可是新疆都没有海,大家穿着比基尼,该去哪里好?
事实上不是新疆爱穿比基尼的人群基数大,而是新疆卖比基尼的实体店太少,所以只能网购了。
大数据带来的改变
改变1    大数据在教育行业:因材施教与精准扶贫
2017年高考刚刚过去。对于那些没有考上大学的孩子又该怎么办呢?事实上,人与人是不同的。有的孩子天生智商就很高,也爱读书。但是有的孩子,他们更爱画画、做手工和打篮球。对于有着不同兴趣爱好的学生,有着不是智商的学生,因材施教太重要了。都说三十六行,行行出状元,对于成绩好的学生,当然是多教他们文化课;对于有着其他兴趣爱好的学生,我们是不是可以教他们其他一些生存的技能呢?因材施教在现阶段的教育还不能完全做到,但是在不远的将来,肯定会成为现实。那么如何甄别每个学生的不同呢?用大数据分析就可以办到。
2016年3月21日,南京理工大学有301位同学的饭卡上“莫名”多出了钱来。这是南京理工大学最新启动的“暖心饭卡”项目,旨在解决该校贫困生的吃饭问题。那么,301名贫困生名单以及补助金额是如何确定的?
据悉,南理工教育基金会对全校所有在校本科生的饭卡刷卡记录进行了数据分析,分析区间为2015年9月中旬到11月中旬。其中,每个月在食堂吃饭超过60顿、一个月总消费不足420元的,被列为受资助对象。
改变2    大数据在娱乐行业:票房监测与网络神剧
笔者手机里常年装着一个APP,这个APP可以实时看到每天电影的实时票房。通过实时票房数据,笔者可以了解到最近最受大众喜欢的电影是什么?可以看到每一个电影的排片量和上座率。这对娱乐行业来说是非常有价值的,它既可以帮助院线方及时调整排片策略,又能帮助电影公司及时了解旗下电影的最新数据。最重要的是,它让票房数据透明化,对于那些整天炒票房的烂片来说,这就是一个“大杀器”。
对于影视剧制作的公司来说,选择哪位明星来参与电影电视剧也是一大难题。大数据在这方面可以提供预测和决策帮助。通过分析明星过往参演的片子数据,分析不同明星的号召力和商业价值、分析不同的IP题材等等,这些都可以帮助电影电视剧公司来做选择,规避风险。Netflix红遍全球的美剧《纸牌屋》背后就有大数据的力量。这里就不一一细表。
“在大数据时代,特别是万物互联的时代,人类获得数据的能力远远超过大家的想象,人类取得数据、对数据进行重新处理以及处理的速度也远远超过大家的想象。不管是AI(人工智能)也好,MI(机器智能)也好,我们对世界的认识将会提升到一个新的高度。所以大数据会让市场变得更加聪明。由于大数据,让计划和预判成为可能。 ”
作者:诺蓝

大数据的本质是什么篇(3):数据的本质和核心是什么?


       一、一场以大数据为核心的智能盛宴  时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20 年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心的人工智能渐露端倪。  有一天晚上准备睡觉时,听到隔壁传来女儿跟苹果智能语音助手Siri 对话的声音。我太太问我,这样正常吗?我告诉她不用担心,这是目前的趋势。根据不久前美国“用户普及率调查”的结果,语音助手的使用已经达到引爆点,并在走向大规模普及的阶段。  前段时间,我在美国旧金山就拜访了Semantic Machines 的创始人兼CEO 丹· 罗斯(Dan Roth),这家公司的成员很多都是Siri 和Echo 的幕后功臣。如今,罗斯领导着一个汇集了自然语言处理、语义理解、会话计算等领域专家的顶级团队,目标是攻破人机对话领域这个老大难的题目。  罗斯把他们正在研发的革命性技术称为对话式人工智能(Conversational AI)。与Siri 相比,这种技术能够更真实地了解用户本人的意图,哪怕用户从一个话题跳到另一个话题,又或者说的话不完整、不连贯,而这些正是人类对话的自然特点。这些特点正是目前这类技术的难点所在,相信了解破解自然语言难度的人都清楚,这项研究一旦成功,必然会改变世界。  2010 年,“数据科学家”这个称谓的发明者帕蒂尔(D.J.Patil)和杰夫· 哈默巴赫(Jeff Hammerbacher)认为,一切应该以产品为中心,从数据获取、数据清洗、搭建和管理数据设施、原型开发、产品设计等方面,去实践数据的价值。我在阿里就经历了从“数据产品”到“数据作为产品”的阶段,后者其实才是大数据的真正产物,也是人工智能的源泉。  二、谁掌握“完美信息”,谁就将拥有整个世界  刚开始进入数据行业时,我一直秉承着这样一个理念:在“假设数据都是可获取的”基础上,思考问题。随着整个社会数据化程度的进一步加深,以及人与物之间的高度互联,以前很多信息的盲点被快速解开。由不同领域积累下的数据形成的“完美信息”渐露端倪,这其实是一个数据从量变到质变的过程。这一“完美信息”具有无限潜能,足以让人工智能所向披靡,催生各种智能场景,并让其如潮涌至。智能时代,秉承“假设数据都是可获取的”这一思维方式,才可让你比别人更胜一筹,从而做到心中有数。  我在阿里时就曾参与设计了一款智能营销工具 “Look-Alike”。通过机器学习,我们可以利用过去积累的客户消费特征(每个客户有高达上万个标签),作出精准推送广告的决策。有别于过去的广告规划,我们不会问广告主如何描述其目标客户群,而是让广告主给出500 个喜欢某品牌的用户名单,我们就可以帮他找出5 000 个,甚至5 万个类似的客户。这种方法可以在几个小时之内快速“扫描”出最有效的营销方案。通过这项技术,我们基本可以实现让广告主喜出望外的精准广告投放效果。但问题是,这种产品真的能为广告业及阿里带来新的价值吗?这还只是大数据革命的开端,大家可以拭目以待!  现实中,我们从数据收集、整合、判断,以至行动、再到反馈的过程并不完美,而形成数据闭环系统的阻力往往是人为因素居多。谷歌无人驾驶汽车项目的伟大之处正是给了我们重要的启发,让我们意识到自动化及智能化所需要的数据闭环系统是如何做到了既封闭又开放,其中的里应外合正是未来的发展趋势。我在阿里就经历了4 个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。  三、从数据战略到数据治理,别让数据成为累赘  如前所述,数据资源的积累是发展数字经济的前提。企业在向往智能时代所带来的机遇的同时,更要为企业的未来目标制定数据战略。企业不仅要关注自己现在有什么数据,更要了解未来会欠缺什么。然后,再去探讨欠缺的部分有多少可以靠自己补充,有多少需要求助他人、与他人合作以实现补充。有人把数据比喻为电能,这个比喻很生动,但与电能不一样的是,数据是可以被重复使用的。  在阿里时,我是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。  所以从战略意义上来说,第二使用权的合规性变得非常微妙。大数据背后的逻辑是数据积累越多越好,在过去两三年,很多企业都相信有了大量数据资源后,就能对企业的业务产生更大价值。  但人们往往很快就会发现,除了技术能力之外,如何妥当地管理、利用这些资源并非易事:安全合规是一方面,降低数据使用的阻力及风险也是困难重重。所以我一直倡议,数据治理不是数据部门的工作,而是公司总体的战略。这意味着,“本性纯善”的大数据也容易变成一个累赘。  四、数据是一种信仰,“善”用才是本质  2016 年,一场围棋大战让人类引以为傲的智力顶配瞬间被AlphaGo 践踏得体无完肤。而在我看来,这场大战其实不过是一帮人赢了另一帮人,而且大部分人仅注意到了智“能”,而忽略了它与智“慧”的差别:“能”是能力的表现,而“慧”是心除杂念,将智能用在具有普世价值的地方。同样的科技能力是被善用还是被滥用只有一线之差。  2016 年在英国伦敦召开的一场数据大会上,有人预测:英超联赛莱斯特城足球俱乐部的中场球员里亚德· 马赫雷斯(RiyadMahrez)将成为值得关注的球员。当时他在演讲中说:“根据我们的数据,目前马赫雷斯不仅是英国最好的中场球员,也是欧洲最好的中场球员之一。我敢说,在本赛季结束时,他的价值将非常巨大。”其数据显示,马赫雷斯在各类足球比赛期间,先后出场35 次,总体评分1118 分,在欧洲排名第6 位,仅次于1 635 分的“阿根廷球王”梅西等5 位球员。  结果,莱斯特城足球俱乐部2017 年1 月爆出超级大冷门,首次获得英超联赛冠军。表现神勇的马赫雷斯不但是最大功臣,更荣膺英超联赛最佳球员,即“足球先生”,成了第一位获此荣誉的非洲球员。  这位堪称“ 神预测” 的仁兄叫瓦莱里· 博利埃(ValeryBollier),是一家体育运营商Oulala 的联合创始人兼CEO,其公司以其复杂精妙的数学矩阵闻名。他们的系统包含了70 个取决于球员位置(守门员、后场、中场、前锋等)的不同标准,总共能够衍生出275 种或得分或丢分的方式。这些方式多种多样,从进球和助攻,到具体射中球门和成功阻截等,尽量量化了接近比赛的真实情况。  为什么博利埃能够未卜先知,竟在年前就作出如此准确的预测?其实答案就是大数据和信息。球队的班主、教练和星探等,都被这种量化管理震惊。他们难免开始担忧,在大数据领域落后了怎么办?那就等着被淘汰吧。  几千年来,人类习惯了生存在信息稀缺的年代,大数据与人工智能则为人们带来了曙光,同时也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰, 我们应该善用这个宝藏, 为人类创造更美好的世界。

本文来源:https://www.shanpow.com/xx/488773/

《大数据的本质是什么.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

相关阅读
  • 计算机考试答案 计算机考试答案
  • 大学生计算机考试答案【二篇】 大学生计算机考试答案【二篇】
  • 计算机考试时间规律是什么锦集三篇 计算机考试时间规律是什么锦集三篇
  • 大学生计算机考试答案(通用2篇) 大学生计算机考试答案(通用2篇)
  • 大学生计算机考试答案范文汇总二篇 大学生计算机考试答案范文汇总二篇
  • 计算机考试技巧与方法有哪些(锦集5篇) 计算机考试技巧与方法有哪些(锦集5篇)
  • 2023计算机考试一级怎么备考精选2篇 2023计算机考试一级怎么备考精选2篇
  • 计算机考试过关技巧攻略精选三篇 计算机考试过关技巧攻略精选三篇
为您推荐