大数据的理解

科学/班会/信息 2019-10-12 21:35:35 科学/班会/信息

小中大

手机查看

[摘要]大数据的理解篇一:对大数据的再认识摘要:大数据已成为媒体与大众关注的新技术，大数据的应用也预示着信息时代将进入一个新阶段，但人们对大数据的认识有一个不断加深的过程。首先从“信息时代新阶段”、数据文化和认识论的高度阐述了对大数据的理解；接着通过对驱动效益和大成智慧的解释，探讨了如何正确认识大数据的价

【www.shanpow.com--科学/班会/信息】

大数据的理解篇一:对大数据的再认识

摘要:大数据已成为媒体与大众关注的新技术，大数据的应用也预示着信息时代将进入一个新阶段，但人们对大数据的认识有一个不断加深的过程。首先从“信息时代新阶段”、数据文化和认识论的高度阐述了对大数据的理解；接着通过对驱动效益和大成智慧的解释，探讨了如何正确认识大数据的价值和效益，并从复杂性的角度分析了大数据研究和应用面临的挑战；最后对发展大数据应避免的误区提出几点看法。
关键词:大数据；认识论；大成智慧；复杂性
1 大数据兴起预示“信息时代”进入新阶段
1.1 看待大数据要有历史性的眼光
口口信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网（万维网）。尽管媒体上大量出现“大数据时代”的说法，但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破，难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段，大数据等新技术的应用标志着信息社会将进入一个新阶段。
口口考察分析100年以上的历史长河可以发现，信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高，分界线分别是1915年和1995年[1]。笔者猜想，信息技术经过几十年的扩散储备后，21世纪的前30年可能是信息技术提高生产率的黄金时期。
1.2 从“信息时代新阶段”的高度认识“大数据”
口口中国已开始进入信息时代，但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题，其根源是对时代的认识不到位。18-19世纪中国落后挨打，根源是满清政府没有认识到时代变了，我们不能重犯历史性的错误。
口口中央提出中国进入经济“新常态”以后，媒体上有很多讨论，但多数是为经济增速降低做解释，很少有从时代改变的角度论述“新常态”的文章。笔者认为，经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段，是经济和社会管理的跃迁，不是权宜之计，更不是倒退。
口口大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构“第三平台”是信息社会进入新阶段的标志，对整个经济的转型有引领和带动作用。媒体上经常出现的互联网+、创客、“第二次机器革命”、“工业4.0”等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆，所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。
1.3 大数据可能是中国信息产业从跟踪走向引领的突破口
口口中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席（阿里巴巴、腾讯、百度和京东），其他6个Top10 互联网服务企业全部是美国企业，欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上，我国有可能改变过去30年技术受制于人的局面，在大数据应用上中国有可能在全世界起到引领作用。
口口但是，企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上，国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径，但我们对开源社区的贡献很小，在全球近万名社区核心志愿者中，我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训，加强大数据基础研究和前瞻技术研究，努力攻克大数据核心和关键技术。
2 理解大数据需要上升到文化和认识论的高度
2.1 数据文化是一种先进文化
口口数据文化的本质是尊重客观世界的实事求是精神，数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作，但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道，首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业，而是指全民的数据意识。全社会应认识到：信息化的核心是数据，只有政府和大众都关注数据时，才能真正理解信息化的实质；数据是一种新的生产要素，大数据的利用可以改变资本和土地等传统要素在经济中的权重。
口口有人将“上帝与数据共舞”归纳为美国文化的特点之一，说的是美国人既有对神的诚意，又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变，南北战争之后人口普查的方法被应用到很多领域，形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系，我国要实现现代化也必须强调数据文化。
口口提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源，数据的采集和分析涉及每一个行业，是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势，而从数据中发现价值的技术正是最有活力的软技术，数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。
2.2 理解大数据需要有正确的认识论
口口历史上科学研究是从逻辑演绎开始的，欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始，科学研究更加重视自然观察和实验观察，在观察基础上通过归纳方法提炼出科学理论，“科学始于观察”成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献，但也暴露出明显的问题，甚至走入极端。理性主义走向极端就成为康德所批判的独断主义，经验主义走入极端就变成怀疑论和不可知论[2]。
口口20世纪30年代，德国哲学家波普尔提出了被后人称为“证伪主义”的认识论观点，他认为科学理论不能用归纳法证实，只能被试验发现的反例“证伪”，因而他否定科学始于观察，提出“科学始于问题”的著名观点[3]。证伪主义有其局限性，如果严格遵守证伪法则，万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但“科学始于问题”的观点对当前大数据技术的发展有指导意义。
口口大数据的兴起引发了新的科学研究模式：“科学始于数据”。从认识论的角度看，大数据分析方法与“科学始于观察”的经验论较为接近，但我们要牢记历史的教训，避免滑入否定理论作用的经验主义泥坑。在强调“相关性”的时候不要怀疑“因果性”的存在；在宣称大数据的客观性、中立性的时候，不要忘了不管数据的规模如何，大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言：“采用大数据挖掘，你不需要对数据提出任何问题，数据就会自动产生知识”。面对像大海一样的巨量数据，从事数据挖掘的科技人员最大的困惑是，我们想捞的“针”是什么？这海里究竟有没有“针”？也就是说，我们需要知道要解决的问题是什么。从这个意义上讲，“科学始于数据”与“科学始于问题”应有机地结合起来。
口口对“原因”的追求是科学发展的永恒动力。但是，原因是追求不完的，人类在有限的时间内不可能找到“终极真理”。在科学的探索途中，人们往往用“这是客观规律”解释世界，并不立即追问为什么有这样的客观规律。也就是说，传统科学并非只追寻因果性，也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型，这些知识和模型也可以用来预测未来，可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少，比如开普勒归纳的天体运动规律等；而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性，但大数据模型不一定具有必然性，也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会，在知识阶梯上位于较高层，其自然边界是模糊的，但有更多的实践特征。大数据研究者更重视知行合一，相信实践论。大数据认识论有许多与传统认识论不同的特点，我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱，用数据规律补充了单一的因果规律，实现了唯理论和经验论的数据化统一，一种全新的大数据认识论正在形成。
3 正确认识大数据的价值和效益
3.1 大数据的价值主要体现为它的驱动效应
口口人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据的价值主要体现在它的驱动效应，即带动有关的科研和产业发展，提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上，应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术，理解通用技术要采用“蜜蜂模型”：蜜蜂的效益主要不是自己酿的蜂蜜，而是蜜蜂传粉对农业的贡献。
口口电子计算机的创始人之一冯·诺依曼曾指出：“在每一门科学中，当通过研究那些与终极目标相比颇为朴实的问题，发展出一些可以不断加以推广的方法时，这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现，多做一些“颇为朴实”的事情，实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例，对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露，所谓“啤酒加尿布”的数据挖掘经典案例，其实是Teradata公司一位经理编出来的“故事”，历史上并没有发生过[4]。即使有这个案例，也不说明大数据分析本身有什么神奇，大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是，关键是人的分析推理找出为什么两件事物同时或相继出现，找对了理由才是新知识或新发现的规律，相关性本身并没有多大价值。
口口有一个家喻户晓的寓言可以从一个角度说明大数据的价值：一位老农民临终前告诉他的3个儿子，他在他家的地中埋藏了一罐金子，但没有讲埋在哪里。他的儿子们把他家所有的地都深挖了一遍，没有挖到金子，但由于深挖了土地，从此庄稼收成特别好。数据收集、分析的能力提高了，即使没有发现什么普适的规律或令人完全想不到的新知识，大数据的价值也已逐步体现。
3.2 大数据的力量来自“大成智慧”
口口每一种数据来源都有一定的局限性和片面性，只有融合、集成各方面的原始数据，才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体，但角度不同。对同一个问题，不同的数据能提供互补信息，可对问题有更深入的理解。因此在大数据分析中，汇集尽量多种来源的数据是关键。
口口数据科学是数学（统计、代数、拓扑等）、计算机科学、基础科学和各种应用科学融合的科学，类似钱学森先生提出的“大成智慧学”[5]。钱老指出：“必集大成，才能得智慧”。大数据能不能出智慧，关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告，重点强调“无缝智慧（seamless intelligence）”。发展大数据的目标就是要获得协同融合的“无缝智慧”。单靠一种数据源，即使数据规模很大，也可能出现“瞎子摸象”一样的片面性。数据的开放共享不是锦上添花的工作，而是决定大数据成败的必要前提。
口口大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路，重点不是支持单项技术和单个方法的发展，而是强调不同部门、不同学科的协作。数据科学不是垂直的“烟囱”，而是像环境、能源科学一样的横向集成科学。
3.3 大数据远景灿烂，但近期不能期望太高
口口交流电问世时主要用作照明，根本想象不到今天无处不在的应用。大数据技术也一样，将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来，但近期要非常务实地工作。人们往往对近期的发展估计过高，而对长期的发展估计不足。Gartner公司预测，大数据技术要在5~10年后才会成为较普遍采用的主流技术，对发展大数据技术要有足够的耐心。
口口大数据与其他信息技术一样，在一段时间内遵循指数发展规律。指数发展的特点是，从一段历史时期衡量（至少30年），前期发展比较慢，经过相当长时间（可能需要20年以上）的积累，会出现一个拐点，过了拐点以后，就会出现爆炸式的增长。但任何技术都不会永远保持“指数性”增长，一般而言，高技术发展遵循Gartner公司描述的技术成熟度曲线（hype cycle），最后可能进入良性发展的稳定状态或者走向消亡。
口口需要采用大数据技术来解决的问题往往都是十分复杂的问题，比如社会计算、生命科学、脑科学等，这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化，才出现生物和人类，其复杂和巧妙堪称绝伦，不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来，大数据技术只是科学技术发展长河中的一朵浪花，对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。
4 从复杂性的角度看大数据研究和应用面临的挑战
口口大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代，新三论（耗散结构论、协同论、突变论）的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所，提出超越还原论的口号，在科技界掀起了一场复杂性科学运动。虽然雷声很大，但30年来并未取得预期的效果，其原因之一可能是当时还没有出现解决复杂性的技术。
口口集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大，可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础，大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养，从事数据科学研究的学者不但要了解20世纪的“新三论”，可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识，扩大自己的视野，加深对大数据机理的理解。
口口大数据技术还不成熟，面对海量、异构、动态变化的数据，传统的数据处理和分析技术难以应对，现有的数据处理系统实现大数据应用的效率较低，成本和能耗较大，而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。
4.1 数据复杂性引起的挑战
口口图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难，其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式，数据本身具有很高的复杂性。目前，人们对大数据背后的物理意义缺乏理解，对数据之间的关联规律认识不足，对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解，领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标，需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接，大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观“涌现”规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理，从而简化大数据的表征，获取更好的知识抽象。为此，需要建立多模态关联关系下的数据分布理论和模型，理清数据复杂度和计算复杂度之间的内在联系，奠定大数据计算的理论基础。
4.2 计算复杂性引起的挑战
口口大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算，在分析大数据时，需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大，内在关联密切而复杂，价值密度分布极不均衡，这些特征对建立大数据计算范式提出了挑战。对于PB级的数据，即使只有线性复杂性的计算也难以实现，而且，由于数据分布的稀疏性，可能做了许多无效计算。
口口传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系，所谓具有多项式复杂性的算法是指当问题的规模增大时，计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是，针对给定规模的问题，如何“算得快”。而在大数据应用中，尤其是流式计算中，往往对数据处理和分析的时间、空间有明确限制，比如网络服务如果回应时间超过几秒甚至几毫秒，就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下，如何“算得多”。从“算得快”到“算得多”，考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多”并不是计算的数据量越大越好，需要探索从足够多的数据，到刚刚好的数据，再到有价值的数据的按需约简方法。
口口基于大数据求解困难问题的一条思路是放弃通用解，针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题，但只要数据充分多，在限制条件下可以找到十分满意的解，近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量，需要研究基于自举和采样的局部计算和近似方法，提出不依赖于全量数据的新型算法理论，研究适应大数据的非确定性算法等理论。
4.3 系统复杂性引起的挑战
口口大数据对计算机系统的运行效率和能耗提出了苛刻要求，大数据处理系统的效能评价与优化问题具有挑战性，不但要求理清大数据的计算复杂性与系统效率、能耗间的关系，还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点，需要研究大数据的分布式存储和处理架构。
口口大数据应用涉及几乎所有的领域，大数据的优势是能在长尾应用中发现稀疏而珍贵的价值，但一种优化的计算机系统结构很难适应各种不同的需求，碎片化的应用大大增加了信息系统的复杂性，像昆虫种类一样多（500多万种）的大数据和物联网应用如何形成手机一样的巨大市场，这就是所谓“昆虫纲悖论”[6]。为了化解计算机系统的复杂性，需要研究异构计算系统和可塑计算技术。
口口大数据应用中，计算机系统的负载发生了本质性变化，计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转，关注的重点不是数据加工，而是数据的搬运；系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力，并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动，必要的数据搬运也应由“大象搬木头”转变为“蚂蚁搬大米”。
5 发展大数据应避免的误区
5.1 不要一味追求“数据规模大”
口口大数据主要难点不是数据量大，而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据，要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一，但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差，基于可信度很差的数据难以分析出有价值的结果。
口口一味追求数据规模大不仅会造成浪费，而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫，重视数据的开放与共享。所谓数据规模大与应用领域有密切关系，有些领域几个PB的数据未必算大，有些领域可能几十TB已经是很大的规模。
口口发展大数据不能无止境地追求“更大、更多、更快”，要走低成本、低能耗、惠及大众、公正法治的良性发展道路，要像现在治理环境污染一样，及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。
5.2 不要“技术驱动”，要“应用为先”
口口新的信息技术层出不穷，信息领域不断冒出新概念、新名词，估计继“大数据”以后，“认知计算”、“可穿戴设备”、“机器人”等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮，往往不自觉地跟着技术潮流走，最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务，检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略，坚持应用牵引的技术路线。技术有限，应用无限。各地发展云计算和大数据，一定要通过政策和各种措施调动应用部门和创新企业的积极性，通过跨界的组合创新开拓新的应用，从应用中找出路。
5.3 不能抛弃“小数据”方法
口口流行的“大数据”定义是：无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题，可能导致认识的误区。按照这种定义，人们可能只会重视目前解决不了的问题，如同走路的人想踩着自己身前的影子。其实，目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题，不管是大数据还是小数据。
口口统计学家们花了200多年，总结出认知数据过程中的种种陷阱，这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题，大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵，就是由于搜索推荐等人为的干预造成统计误差。
口口大数据界流行一种看法：大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化，实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。
5.4 要高度关注构建大数据平台的成本
口口目前全国各地都在建设大数据中心，吕梁山下都建立了容量达2 PB以上的数据处理中心，许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的，不能不计成本，盲目建设大数据系统。什么数据需要保存，要保存多少时间，应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中，美国的E级超级计算机系统要求能耗降低1 000倍，计划到2024年才能研制出来，用现在的技术构建的巨型系统能耗极高。
口口我们不要攀比大数据系统的规模，而是要比实际应用效果，比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用，因地制宜发展大数据。发展大数据与实现信息化的策略一样：目标要远大、起步要精准、发展要快速。
参考文献
[1]Erik B,Andrew M. 第二次机器革命. 蒋永军译. 北京: 中信出版社, 2014
ErikB, Andrew M. The Second Machine Age. Translated by Jiang Y H. Beijing: Citic Press, 2014
[2]黄欣荣. 大数据对科学认识论的发展. 自然辩证法研究, 2014, 30(9): 83~88
Huang X R. The development oftraditional epistemology base on big data. Studies in Dialectics of Nature,2014, 30(9): 83~88
[3]Karl R P.猜想与反驳: 科学知识的增长. 傅季重, 纪树立, 周昌忠等译. 上海: 上海译文出版社, 2015
Karl RP. Conjectures and Refutations: the Growth Scientific Knowledge. Translated byFu J Z, Ji S L, Zhou C Z, et al. Shanghai: Shanghai TranslationPublishing House, 2015
[4]卢明森, 鲍世行. 钱学森论大成智慧. 北京: 清华大学出版社, 2014
Lu M S,Bao S X. Qian Xuesin’s View on Wisdom in Cyberspase. Beijing: Tsinghua University Press, 2014
[5]吴甘沙. 漫谈大数据的思想形成与价值维度. http://www.chinainfo100.net/document/201404/article12793.htm, 2014
Wu G S.Discussion on thought formation and value dimension of big data.http://www.chinainfo100.net/document/ 201404/article12793.htm, 2014
[6]徐志伟, 李国杰. 普惠计算之十二要点. 集成技术, 2012, 1(1)
Xu Z W, Li G J. A dozen essential issues ofcomputing for the masses. Journal of Integration Technology, 2012, 1(1)
(文章转自：软件定义世界)

大数据的理解篇二:大数据的初步理解

似乎一夜之间，大数据（Big Data）变成一个IT行业中最时髦的词汇。
首先，大数据不是什么完完全全的新生事物，Google的搜索服务就是一个典型的大数据运用，根据客户的需求，Google实时从全球海量的数字资产（或数字垃圾）中快速找出最可能的答案，呈现给你，就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少，在IT行业没有形成成型的概念。现在随着全球数字化、网络宽带化、互联网应用于各行各业，累积的数据量越来越大，越来越多企业、行业和国家发现，可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率，才逐步形成大数据这个概念。
有一个有趣的故事是关于奢侈品营销的。PRADA在纽约的旗舰店中每件衣服上都有RFID码。每当一个顾客拿起一件PRADA进试衣间，RFID会被自动识别。同时，数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间，数据都被存储起来加以分析。如果有一件衣服销量很低，以往的作法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低，但进试衣间的次数多。那就能另外说明一些问题。也许这件衣服的下场就会截然不同，也许在某个细节的微小改变就会重新创造出一件非常流行的产品。
还有一个是关于中国粮食统计的故事。中国的粮食统计是一个老大难的问题。中国的统计，虽然有组织、有流程、有法律，但中央的统计人员依靠省统计人员，省靠市，市靠县，县靠镇，镇靠村，最后真正干活或上报的是基层兼职的调查人员，由于众所周知的KPI考核导向的原因，层层加码，几乎没有人相信这个调查数据，而其中国家统计局的人是最不信的。在前两年北京的一个会议上，原国家统计局总经济师姚景源向我们讲述了他们是如何做的。他们采用遥感卫星，通过图像识别，把中国所有的耕地标识、计算出来，然后把中国的耕地网格化，对每个网格的耕地抽样进行跟踪、调查和统计，然后按照统计学的原理，计算（或者说估算）出中国整体的整体粮食数据。这种做法是典型采用大数据建模的方法，打破传统流程和组织，直接获得最终的结果。
最后是一个炒股的故事。这个故事来自于2011年好莱坞的一部高智商电影《永无止境》，讲述一位落魄的作家库珀，服用了一种可以迅速提升智力的神奇蓝色药物，然后他将这种高智商用于炒股。库珀是怎么炒股的呢？就是他能在短时间掌握无数公司资料和背景，也就是将世界上已经存在的海量数据（包括公司财报、电视、几十年前的报纸、互联网、小道消息等）挖掘出来，串联起来，甚至将Face Book、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向，通过海量信息的挖掘、分析，使一切内幕都不是内幕，使一切趋势都在眼前，结果在10天内他就赢得了200万美元，神奇的表现让身边的职业投资者目瞪口呆。这部电影简直是展现大数据魔力的教材性电影，推荐没有看过的IT人士看一看。
从这些案例来看，大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题：人类通常只使用了20％的大脑，如果剩余80％大脑潜能被激发出来，世界会变得怎样？在企业、行业和国家的管理中，通常只有效使用了不到20%的数据（甚至更少），如果剩余80%数据的价值激发起来，世界会变得怎么样呢？特别是随着海量数据的新摩尔定律，数据爆发式增长，然后数据又得到更有效应用，世界会怎么样呢？
单个的数据并没有价值，但越来越多的数据累加，量变就会引起质变，就好像一个人的意见并不重要，但1千人、1万人的意见就比较重要，上百万人就足以掀起巨大的波澜，上亿人足以改变一切。
数据再多，但如果被屏蔽或者没有被使用，也是没有价值的。中国的航班晚点非常多，相比之下美国航班准点情况好很多。这其中，美国航空管制机构一个的好做法发挥了积极的作用，说起来也非常简单，就是美国会公布每个航空公司、每一班航空过去一年的晚点率和平均晚点时间，这样客户在购买机票的时候就很自然会选择准点率高的航班，从而通过市场手段牵引各航空公司努力提升准点率。这个简单的方法比任何管理手段（如中国政府的宏观调控手段）都直接和有效。这里多说一两句，过去一个暴政国家对内的控制主要是物理上的暴力，就是强力机构权力无限大，搞国家恐怖主义；而现在一个暴政国家，主要是就靠垄断信息、封锁信息，让民众难以获得广泛而真实的信息，从而实现国家的控制。这个信息封锁，就是对大数据的封锁。
没有整合和挖掘的数据，价值也呈现不出来。《永无止境》中的库珀如果不能把海量信息围绕某个公司的股价整合起来、串联起来，这些信息就没有价值。
因此，海量数据的产生、获取、挖掘及整合，使之展现出巨大的商业价值，这就是我理解的大数据。在互联网对一切重构的今天，这些问题都不是问题。因为，我认为大数据是互联网深入发展的下一波应用，是互联网发展的自然延伸。目前，可以说大数据的发展到了一个临界点，因此才成为IT行业中最热门的词汇之一。
大数据将重构很多行业的商业思维和商业模式我想以对未来汽车行业的狂野想象来展开这个题目。
在人的一生中，汽车是一项巨大的投资。以一部30万车、七年换车周期来算，每年折旧费4万多（这里还不算资金成本），加上停车、保险、油、维修、保养等各项费用，每年耗费应在6万左右。汽车产业也是一个很长产业链的龙头产业，这个方面只有房地产可以媲美。
但同时，汽车产业链是一个低效率、变化慢的产业。汽车一直以来就是四个轮子、一个方向盘、两排沙发（李书福语）。这么一个昂贵的东西，围绕车产生的数据却少的可怜，行业产业链之间几无任何数据传递。
我们在这里狂野地想象一番，如果将汽车全面数字化，都大数据了，会产生什么结果？
有些人说，汽车数字化，不就是加个MBB模块吗？不，这太小儿科了。在我理想中，数字化意味着汽车可以随时联上互联网，意味着汽车是一个大型计算系统加上传统的轮子、方向盘和沙发，意味着可以数字化导航、自动驾驶，意味着你和汽车相关的每一个行动都数字化，包括每一次维修、每一次驾驶路线、每一次事故的录像、每一天汽车关键部件的状态，甚至你的每一个驾驶习惯（如每一次的刹车和加速）都记录在案。这样，你的车每月甚至每周都可能产生T比特的数据。
好了，我们假设这些数据都可以存储并分享给相关的政府、行业和企业。这里不讨论隐私问题带来的影响，假设在隐私保护的前提下，数据可以自由分享。
那么，保险公司会怎么做呢？
保险公司把你的所有数据拿过去建模分析，发现几个重要的事实:一是你开车主要只是上下班，南山到坂田这条线路是非繁华路线，红绿灯很少，这条路线过去一年统计的事故率很低；你的车况（车的使用年限、车型）好，此车型在全深圳也是车祸率较低；甚至统计你的驾驶习惯，加油平均，临时刹车少，超车少，和周围车保持了应有的车距，驾驶习惯好。最后结论是你车型好，车况好，驾驶习惯好，常走的线路事故率低，过去一年也没有出过车祸，因此可以给予更大幅度的优惠折扣。这样保险公司就完全重构了它的商业模式了。
在没有大数据支撑之前，保险公司只把车险客户做了简单的分类，一共分为四种客户，第一种是连续两年没有出车祸的，第二种过去一年没有出车祸，第三种过去一年出了一次车祸，第四种是过去一年出了两次及以上车祸的，就四种类型。这种简单粗暴的分类，就好像女人找老公，仅把男人分为没有结过婚的、结过一次婚的、结过二次婚的、结过三次及以上婚的四种男人，就敢嫁人一样。在大数据的支持下，保险公司可以真正以客户为中心，把客户分为成千上万种，每个客户都有个性化的解决方案，这样保险公司经营就完全不同，对于风险低的客户敢于大胆折扣，对于风险高的客户报高价甚至拒绝，一般的保险公司就完全难以和这样的保险公司竞争了。
拥有大数据并使用大数据的保险公司比传统公司将拥有压倒性的竞争优势，大数据将成为保险公司最核心的竞争力，因为保险就是一个基于概率评估的生意，大数据对于准确评估概率毫无疑问是最有利的武器，而且简直是量身定做的武器。
在大数据的支持下，4S店的服务也完全不同了。车况信息会定期传递到4S店，4S店会根据情况及时提醒车主及时保养和维修，特别是对于可能危及安全的问题，在客户同意下甚至会采取远程干预措施，同时还可以提前备货，车主一到4S店就可以维修而不用等待。
对于驾驶者来说，不想开车的时候，在大数据和人工智能的支持下，车辆可以自动驾驶，并且对于你经常开的线路可以自学习自优化。谷歌的自动驾驶汽车，为了对周围环境作出预测，每秒钟要收集差不多1GB的数据，没有大数据的支持，自动驾驶是不可想象的；在和周围车辆过近的时候，会及时提醒车主避让；上下班的时候，会根据实时大数据情况，对于你经常开车的线路予以提醒，绕开拥堵点，帮你选择最合适的线路；在出现紧急状况的时候，比如爆胎，自动驾驶系统将自动接管，提高安全性（人一辈子可以难以碰到一次爆胎，人在紧急时的反应往往是灾难性的，只会更糟）；到城市中心，寻找车位是一件很麻烦的事情，但未来你可以到了商场门口后，让汽车自己去找停车位，等想要回程的时候，提前通知让汽车自己开过来接。
车辆是城市最大最活跃的移动物体，是拥堵的来源，也是最大的污染来源之一。数字化的车辆、大数据应用将带来很多的改变。红绿灯可以自动优化，根据不同道路的拥堵情况自动进行调整，甚至在很多地方可以取消红绿灯；城市停车场也可以大幅度优化，根据大数据的情况优化城市停车位的设计，如果配合车辆的自动驾驶功能，停车场可以革命性演变，可以设计专门为自动驾驶车辆的停车楼，地下、地上楼层可以高达几十层，停车楼层可以更矮，只要能高于车高度即可（或者把车竖起来停），这样将对城市规划产生巨大的影响；在出现紧急情况，如前方塌方的时候，可以第一时间通知周围车辆（尤其是开往塌方道路的车辆）；现在的燃油税也可以发生革命性变化，可以真正根据车辆的行驶路程，甚至根据汽车的排污量来收费，排污量少的车甚至可以搞碳交易，卖排放量卖给高油耗的车；政府还可以每年公布各类车型的实际排污量、税款、安全性等指标，鼓励民众买更节能、更安全的车。
电子商务和快递业也可能发生巨大的变化。运快递的车都可以自动驾驶，不用赶白天的拥堵的道路，晚上半夜开，在你家门口设计自动接收箱，通过密码开启自动投递进去，就好像过去报童投报一样。
这么想象下来，我认为，汽车数字化、互联网化、大数据应用、人工智能，将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命，具有无限的想象空间，可能完全被重构。当然，要实现我所描述的场景，估计至少50年、100年之后的事情了，估计我这辈子是看不到的。
下面一个想象是围绕着人本身来展开的。人的数字化生存也就是这几十年的事情。我爷爷奶奶那辈子，是在人生末年的时候有照片，算是初步在个人形象方面有了一点数字化，让我们及后代还可以知道爷爷奶奶的光辉形象。而我们从小就有照片，这些年我们的数字化就越来越多了，身份是数字的（就是身份证），银行存款是数字的，照片是全数字，体检单也数字化，购物数字化（淘宝上有我的几十个地址、几百条购物信息、上万次搜索信息），沟通数字化（****上有新的朋友圈生态），初步构建了一个数字化生存的状态。而我们的下一辈或下下一辈将进入完全的数字化生存，人从一出生就有基因图谱，到后续的每一次体检、每一次化验，到每一年、每一个月、每一个日子的活动，到相关亲戚的轨迹，从每一个人，到每一代人，到整个族谱，到整个国家，到整个全球，这些海量数据的产生将从量变到质变，这些数据的挖掘与使用将对人类本身产生革命性的影响。这里，我们也想象一下：
比如，在你找对象的时候，碰上一位心爱的姑娘，大数据系统就像算命系统一样，根据双方海量数据的挖掘，告诉你和姑娘匹配指数是多少，告诉你全球类似情况的夫妻日后离婚概率是多少，低于某个匹配指数，大数据系统会慎重建议你认真考虑不要这个姑娘继续交往下去。听起来是不是特别像门当户对的数字化呢？当然，你可能会说，这样的人生多没有意思啊，错误本来就是人生最美丽的一部分。呵呵，我只讨论科学问题，对你这种以“浪漫主义”为名，事实上是不以结婚为目的的耍流氓式的恋爱，不予以理睬。其实，我内心也承认，偶尔耍耍流氓是很好的。呵呵，开个玩笑。
又比如，在你找工作的时候，可能会有这么一天，当你面试时，HR会淡定的告诉你，对不起，经过我们的大数据分析，你历来的网贴、微博、****总体负面情绪过多，不符合我们企业阳光乐观积极向上的主题，出门左拐就有地铁站，慢走。
再比如，在你过生日的那天，朋友们生日快乐祝福之后，大数据分析系统会告诉你，你的生命将进入倒计时，根据过去几年的身体数字化大数据，根据基因图谱，根据你亲戚的相关情况统计，你有80%的概率在20年内死去，有30%概率在60岁左右因基因缺陷发生脑溢血，因此你要改善生活习惯，并重点加强监控脑溢血发生的可能性。
这些事情如果都发生，会出现什么情况？第一，估计人类的生命普遍将延长10年以上，因为很多潜在的突发性恶性疾病爆发的概率大幅度降低了。第二，和上面的汽车故事一样，保险公司也可以基于大数据重构商业模型，可以对每个人的大数据进行分析，对每个人进行针对性的保险业务设计。第三，药厂的商业模式可能也改变了，药厂拥有你相关的大数据，可以为你量身定做药品，西服都能量身定做，药品为什么不能呢？定制的西服更合身，定制的药品肯定针对性更强、副作用更少。西服能量身定做，是因为有你三围的数据，药品能量身定做也是因为有你身体的数据，道理是一样的。第四，国家的医保政策也可能重构，国家能根据大数据系统，分析整体国民素质，分析老龄化情况，分析养老金系统的承受能力，针对性地增强某些区域的医疗资源，或者动态调整养老保险费率，或者动态调整退休年限等等。
对汽车产业和数字化人生的想象告一段落。这里，我想系统回顾一下工业文明的发展历程，首先是物理世界的工业文明，典型是蒸汽机的发明，使汽车、轮船进入生活；然后是数字世界的工业文明，就是IT技术的使用，使PC及各种电子产品进入生活，以及企业数字化系统的建立，使沃尔玛这样的巨型企业产生成为可能；下一步就是物理世界和数字世界的融合，这也就是业界热炒的“工业互联网”、“IT 3.0”，而这里面除了数字技术在传统行业的使用（这个事实上已经在广泛使用）、电子商务在渠道的广泛推行，更重要的就是大数据的产生及挖掘、使用，使企业在管理方式、市场机会挖掘、产品设计、营销、服务、商业模式等发生巨大的变化，这种巨大的变化带来了很多行业的革命性变局，也就是颠覆与改造。这种变化在所谓的低效率的大行业将最为明显与直接。这些所谓的的低效率大行业，就是垄断特征明显、产业规模大、产业链长、历史悠久但长时间变化少、IT应用水平低的行业，如汽车、金融、保险、医疗等。
在这个章节的最后，我想总结一下自己对大数据的看法。
一大数据使企业真正有能力从以自我为中心改变为以客户为中心
企业是为客户而生，目的是为股东获得利润。只有服务好客户，才能获得利润。但过去，很多企业是没有能力做到以客户为中心的，原因就是相应客户的信息量不大，挖掘不够，系统也不支持，目前的保险业就是一个典型。大数据的使用能够使对企业的经营对象从客户的粗略归纳（就是所谓提炼归纳的“客户群”）还原成一个个活生生的客户，这样经营就有针对性，对客户的服务就更好，投资效率就更高。
二大数据一定程度上将颠覆了企业的传统管理方式
现代企业的管理方式是来源于对军队的模仿，依赖于层层级级的组织和严格的流程，依赖信息的层层汇集、收敛来制定正确的决策，再通过决策在组织的传递与分解，以及流程的规范，确保决策得到贯彻，确保每一次经营活动都有质量保证，也确保一定程度上对风险的规避。过去这是一种有用而笨拙的方式。在大数据时代，我们可能重构企业的管理方式，通过大数据的分析与挖掘，大量的业务本身就可以自决策，不必要依靠膨大的组织和复杂的流程。大家都是基于大数据来决策，都是依赖于既定的规则来决策，是高高在上的CEO决策，还是一线人员决策，本身并无大的区别，那么企业是否还需要如此多层级的组织和复杂的流程呢？
三大数据另外一个重大的作用是改变了商业逻辑，提供了从其他视角直达答案的可能性
现在人的思考或者是企业的决策，事实上都是一种逻辑的力量在主导起作用。我们去调研，去收集数据，去进行归纳总结，最后形成自己的推断和决策意见，这是一个观察、思考、推理、决策的商业逻辑过程。人和组织的逻辑形成是需要大量的学习、培训与实践，代价是非常巨大的。但是否这是唯一的道路呢？大数据给了我们其他的选择，就是利用数据的力量，直接获得答案。就好像我们学习数学，小时候学九九乘法表，中学学几何，大学还学微积分，碰到一道难题，我们是利用了多年学习沉淀的经验来努力求解，但我们还有一种方法，在网上直接搜索是不是有这样的题目，如果有，直接抄答案就好了。很多人就会批评说，这是抄袭，是作弊。但我们为什么要学习啊？不就是为了解决问题嘛。如果我任何时候都可以搜索到答案，都可以用最省力的方法找到最佳答案，这样的搜索难道不可以是一条光明大道吗？换句话说，为了得到“是什么”，我们不一定要理解“为什么”。我们不是否定逻辑的力量，但是至少我们有一种新的巨大力量可以依赖，这就是未来大数据的力量。
四通过大数据，我们可能有全新的视角来发现新的商业机会和重构新的商业模式
我们现在看这个世界，比如分析家中食品腐败，主要就是依赖于我们的眼睛再加上我们的经验，但如果我们有一台显微镜，我们一下就看到坏细菌，那么分析起来完全就不一样了。大数据就是我们的显微镜，它可以让我们从全新视角来发现新的商业机会，并可能重构商业模型。我们的产品设计可能不一样了，很多事情不用猜了，客户的习惯和偏好一目了然，我们的设计就能轻易命中客户的心窝；我们的营销也完全不同了，我们知道客户喜欢什么、讨厌什么，更有针对性。特别是显微镜再加上广角镜，我们就有更多全新的视野了。这个广角镜就是跨行业的数据流动，使我们过去看不到的东西都能看到了，比如前面所述的汽车案例，开车是开车，保险是保险，本来不相关，但当我们把开车的大数据传递到保险公司，那整个保险公司的商业模式就全变了，完全重构了。
五数据发展对IT本身技术架构的革命性影响
最后一点，我想谈的是大数据发展对IT本身技术架构的革命性影响。大数据的根基是IT系统。我们现代企业的IT系统基本上是建立在IOE（IBM小型机、Oracle数据库、EMC存储）+Cisco模型基础上的，这样的模型是Scale-UP型的架构，在解决既定模型下一定数据量的业务流程是适配的，但如果是大数据时代，很快会面临成本、技术和商业模式的问题，大数据对IT的需求很快就会超越了现有厂商架构的技术顶点，超大数据增长将带来IT支出增长之间的线性关系，使企业难以承受。因此，目前在行业中提出的去IOE趋势，利用Scale-out架构+开源软件对Scale-up架构+私有软件的取代，本质是大数据业务模型所带来的，也就是说大数据将驱动IT产业新一轮的架构性变革。去IOE潮流中的所谓国家安全因素，完全是次要的。
所以，美国人说，大数据是资源，和大油田、大煤矿一样，可以源源不断挖出大财富。而且和一般资源不一样，它是可再生的，是越挖越多、越挖越值钱的，这是反自然规律的。对企业如此，对行业、对国家也是这样，对人同样如此。这样的东西谁不喜欢呢？因此，大数据这么热门，是完全有道理的。
新智慧生物的诞生？
下面的想象就更狂野了，真正要实现，估计至少是我们十辈子或者一百辈子以后的事情。那时候，我们已经是祖宗了哈。大家就当科幻小说来看好了。
从最近一位微软副总裁的演讲说起。瑞克·拉希德（Rick Rashid）是微软研究院的高级副总裁，有一天，他在中国的天津迈上讲台，面对2000名研究者和学生，要发表演讲，他非常非常紧张。这么紧张是有原因的。问题在于，他不会讲中文，而他的翻译水平以前非常糟糕，似乎注定了这次的尴尬。
“我们希望，几年之内，我们能够打破人们之间的语言障碍，”这位微软研究院的高级副总裁对听众们说。令人紧张的两秒钟停顿之后，翻译的声音从扩音器里传了出来。拉希德继续说：“我个人相信，这会让世界变得更加美好。”停顿，然后又是中文翻译。
他笑了。听众对他的每一句话都报以掌声。有些人甚至流下了眼泪。这种看上去似乎过于热情的反应是可以理解的：拉希德的翻译太不容易了。每句话都被理解，并被翻译得天衣无缝。令人印象最深的一点在于，这位翻译并非人类。
这就是自然语言的机器翻译，也是长期以来人工智能研究的一个重要体现。人工智能从过去到未来都有清晰而巨大的商业前景，是以前IT业的热点，其热度一点不亚于现在的“互联网”和“大数据”。但是，人类过去在推进人工智能的研究遇到了巨大的障碍，最后几乎绝望。
当时人工智能就是模拟人的智能思考方式来构筑机器智能。以机器翻译来说，语言学家和语言专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则，数十万词汇构成词库，语法规则高达数万条，考虑各种情景、各种语境，模拟人类翻译，计算机专家再构建复杂的程序。最后发现人类语言实在是太复杂了，穷举式的做法根本达不到最基本的翻译质量。这条道路最后的结果是，1960年代后人工智能的技术研发停滞不前数年后，科学家痛苦地发现以“模拟人脑”、“重建人脑”的方式来定义人工智能走入一条死胡同，这导致后来几乎所有的人工智能项目都进入了冷宫。
这里讲个小插曲。我读大学的时候，有个老师是国内人工智能的顶级教授，还是国内某个人工智能研究会的副会长。他评述当时的人工智能，不是人工智能，而是人工愚蠢，把人类简单的行为分解、分解再分解，再去笨拙地模拟，不是人怎么聪明怎么学，而是模拟学习最蠢的人的最简单的动作。他说，对于当时人工智能的进步，有些人沾沾自喜，说好像登月计划中人类离月亮更进一步了，其实，就是站上了一块石头对着月亮抒情，啊，我离你更近了。他对自己事业的自我嘲讽，让我至今记忆非常深刻。
后来有人就想，机器为什么要向人学习逻辑呢，又难学又学不好，机器本身最强大的是计算能力和数据处理能力，为什么不扬长避短、另走一条道路呢？这条道路就是IBM“深蓝”走过的道路。1997年5月11日，国际象棋大师卡斯帕罗夫在和IBM公司开发的计算机“深蓝”进行对弈时宣布失败，计算机“深蓝”因此赢得了这场意义深远的“人机对抗”。 “深蓝”不是靠逻辑、不靠所谓的人工智能取胜的，就是靠超强的计算能力取胜：思考不过你，但是算死你。
类似的逻辑在后续也用到了机器翻译上。谷歌、微软和IBM都走上了这条道路。就是主要采用匹配法，同时结合机器学习，依赖于海量的数据及其相关相关统计信息，不管语法和规则，将原文与互联网上的翻译数据对比，找到最相近、引用最频繁的翻译结果做为输出。也就是利用大数据以及机器学习技术来实现机器翻译。现有的数据量越是庞大，那么这个系统就能越好地运行，这也正是为何新的机器翻译只有在互联网出现以后才有可能重新取得突破性进展的原因所在。
因此，目前这些公司机器翻译团队中，有不少计算机科学家，但却连一个纯粹的语言学家也没有，只要擅长数学和统计学，然后又会编程，那就可以了。
总而言之，利用这种技术，计算机教会自己从大数据中建立模式。有了足够大的信息量，你就能让机器学会做看上去有智能的事情，别管是导航、理解话语、翻译语言，还是识别人脸，或者模拟人类对话。英国剑桥微软研究院的克里斯·毕肖普（Chris Bishop）打了个比方：“你堆积足够多的砖块，然后退上几步，就能看到一座房子。”
这里我们假设这种技术能够持续进步，未来基于大数据和机器学习基础上的人工智能达到比较流畅地模拟人类对话，就是人类可以和机器进行比较自如的对话。
事实上，IBM的“沃森”计划就是这样科技工程，比如试图让计算机当医生，能够对大部分病进行诊断，并和病人进行沟通。另外，也假设目前刚刚兴起的穿戴式计算设备取得巨大的进展。这种进展到什么程度呢？就是你家的宠物小狗身上也装上了各种传感器和穿戴式设备，比如有图像采集，有声音采集，有嗅觉采集，有对小狗的健康进行监控的小型医疗设备，甚至还有电子药丸在小狗的胃中进行消化情况监控。小狗当然也联上网，也一样产生了巨大的数据量。这时，我们假设基于这些大数据建模，能够模拟小狗的喜怒哀乐，然后还能够通过拟人化的处理进行语音表达，换句话说，就是模拟小狗说人话，比如主人回家时，小狗摇尾巴，旺旺叫，那么这个附着于小狗身上的人工智能系统就会说，“主人，真高兴看到你回家”。不仅如此，你还可以和小狗的人工智能系统进行对话，因为这个人工智能系统能基本理解你的意思，又能够代替小狗拟人化表达。以下我们模拟一下可能的对话：
你：“小狗，今天过得好？”
小狗：“不错啊，主人你今天换的新狗粮味道很好，总觉得没有吃够。”
你：“那很好。我们以后继续买这种狗粮。对了，今天有什么人来吗？”
小狗：“只有邮递员来投递报纸。另外，邻居家的小狗玛丽也来串门，我们一起玩了一下午。”
你：“那你们玩的怎么样？”
小狗：“很开心啊。我好像又进入了初恋呢。”
……
我们可以把上面的模拟对话当成一个笑话。但其实，我们这个时候就会发现一个惊人的事实，就是你其实是面对了两只小狗，一只是物理意义上的小狗，一只是基于大数据和机器学习的人工智能虚拟小狗，而且虚拟小狗比物理小狗还要聪明，真正善解人意。那么，这个虚拟小狗是不是新的智慧生物呢？
我们继续把这个故事来做延伸，把小狗换成未来的人，人在一生中产生大量的数据，根据这些数据建模可以直接推演出很多的结论，比如喜欢看什么样的电影啊，喜欢什么口味的菜啊，在遇到什么问题时会怎么采取什么行动啊。这样的数据一直累积下来，直到这个人去世。
我们有个大胆的想象，这些巨大的数据能否让这个人以某种方式继续存在下去呢？后代有什么问题需要寻求答案的时候，比如在人生的关键抉择时，比如大学要上什么专业、该不该和某个姑娘结婚，可不可以问问这个虚拟的人（祖先）有什么建议呢？答案是当然可以。在这种情况下，数字化生存不仅在人生前存在，也可以在人死后继续存在。人死了，可以在虚拟空间中继续存在。一辈子、一辈子的人故去，这些虚拟的智慧都可以继续存在，假设很多年过去了，这些虚拟智慧的祖宗们太多太多了，活着的子孙们甚至可以组建一个“祖宗联席参谋委员会”，优选那些考得好的（比如中过状元），当过国家高级公务员（比如太守）、当过企业高管（比如CEO）、当过教授、当过作家的等等当过成功人士的祖宗，专门用于后代的咨询、解惑。让这些祖宗死后还有竞争，别死了就没有事情干了。这个场景是不是很熟悉啊？就是迪斯尼动画片《花木兰》中出现过的场景啊，花木兰在面临是否代父参军的重大人生时刻，就向“祖宗联席参谋委员会”倾诉过困惑，得到了指点。
再更大胆地想象一下，假设材料科学也取得巨大的进展，那我们能不能把这些虚拟的生命重新植入到模拟人类的生态体上呢？当然也可以。这个新智慧体可非常像真正的人啊。那这算不算人死后复生呢？那这个新智慧体能不能继续拥有以前的身份证呢？能不能继续拥有以前的财产呢？能不能继续享受养老金呢？是不是也要有强制规定一定的寿命限制呢？这种智慧体会不会自学习、自进化？他们会不会爆发和人类的战争？往深处多想想，感觉全乱套了，现在的伦理、法律等都面临巨大的挑战。
这些说明什么呢？就是随着大数据和机器学习的进一步进展，这个世界出现了新的智慧生物！大数据和机器学习在改变、重构和颠覆很多企业、行业和国家以后，终于到了改变人类自身的时候了！人类的演进出现了新的分支！
有科学家画了下面一张图，来描述这两者智慧生物。一种是基于生物性的，经过几百万年的进化而来；一种是基于IT技术，基于大数据和机器学习，通过自模拟、自学习而来。前者更有逻辑性，更有丰富的情感，有创造力，但生命有限；后者没有很强的逻辑性，没有生物上的情感，但有很强的计算、建模和搜索能力，理论上生命是无限的。
当然，这些事情要发生都会非常非常遥远。反正我们活着的时候是见不到了，死了也见不到，因为我们死的时候，我相信这种建立在大数据和机器学习之上的虚拟生命还不会存在。
结束语我最后想说的是，我们对未来的认知，主要是基于常识和对未来的想象。
根据统计，现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯量更大，现在18个月产生的信息比过去5000年的总和更多，现在我家一台5000元电脑的计算能力比我刚入大学时全校的计算能力更强大。
科技的进步在很多的时候总会超出我们的想象，试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和，一个人产生的数据量超过现在全球数据量的总和，甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和，世界会发生什么呢？那就取决于你的想象力了。来源：华为IT产品解决方案

本文来源：https://www.shanpow.com/jx/488660/

《大数据的理解.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式