【www.shanpow.com--政府春联】
大数据的特点篇1:双面大数据:是天使也是魔鬼
过去几年,我们对美国政府——更确切地说是美国国家安全局的看法有所改变。这一切都始于爱德华·斯诺登泄露了美国国家安全局秘密数据采集项目的细节。
此后,媒体和信息安全分析家们(也包括我自己)针对这些数据的用途及后续分析进行了反复讨论,这些讨论通通围绕着一个众所周知的流行词:大数据。
大数据的贡献
当然,数据采集并非新生事物。事实上,页面广告和网页跟踪技术几乎是与互联网同时产生的。
网页开发者利用大数据跟踪技术为网民们提供了大量服务,包括:
社会创新和创建智能社群基金:麻省理工大学正在利用大数据分析的方法寻找建设智能城市的出路,来帮助我们节能减排、降低生活成本并提高生活质量。此外,大数据在不采集任何个人信息的情况下通过移动设备追踪用户行为——既采集了必要的信息又保障了个人隐私安全。
公共医疗: 大数据也有助于研究癌症和伊博拉病毒治疗康复的方案。
环境保护:大数据的应用推动了有关全球变暖恶化程度的研究并有助于学者分析污染对全球环境的影响。
那么除了这些优点之外,大数据又同时给我们带来了什么问题呢?
大数据的弊端
问题在于大数据是一把任何一面都锋利无比的双刃剑。尽管它有惊人的潜力让我们的世界变得更加美好,但是也可以被轻易地滥用于以赢利为目的的跟踪,甚至被用来跟踪并消除异己。
虽然许多人对大数据不满,但是政府(以及大型企业)如今运用大数据的方式还是可以接受的。从整体看,数据分析正在用于造福公民,但是仍有被滥用的机会。
有不良企图的技术达人们可以通过大数据操纵人们,还有众所周知,包括俄罗斯、某国(你懂得)、朝鲜在内的政府也已运用大数据控制该国居民。
唯利是图的企业家也会用大数据在体制中趁虚而入,在互联网上为了成功不择手段。 很像一些恶意的骇客把名人的云端数据公之于众,总有一些人有能力觊觎并盗取你的信息。
不幸的是,通常在出现大规模的骇客、安全漏洞或者信任缺失之后,人们才开始认真思考如何使用数据。成功的人都知道只有高效以先发制人才能获得成功,而仅仅在重大事故发生之后才采取行动则后患无穷。
大数据的潜在趋势
善用大数据的关键就是如同我们在法律和医疗系统中那样,对我们的工程师和数据科学家在伦理道德标准上施以严格训练。
大数据背后是权力和潜力,同时这个术语本身也简要描述出庞大数据集是个体难以处理的。如此就设置了相比普通人而言,更有利于富有的个人和组织参与的资金壁垒。
在大数据的等式中,我们每个人都是分析试图解出的变量。我们每个人都决定着大数据的均衡。因此,我们必须
尽力掌控并且只在感觉合适时发布自己的数据。我们也同样有责任了解我们支持的组织正如何使用我们的数据。
大数据并非只有弊端,但是它却会被用于违法目的。本人对大数据及其在社会的发挥的作用持乐观态度,但也对其表现的严重隐私问题实事求是。作为一个社会,保证大数据在可控范围内使用取决于我们。
未来大数据是否会利大于弊?你有什么真知灼见呢?
大数据的特点篇2:大数据的定义和特征
麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The nextfrontier for innovation, competition,and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。 国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。 亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。 维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯” 大数据是一个宽泛的概念,见仁见智。上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。笔者在调研多个行业后,给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。 发现规律,预测未来 任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是“人似秋鸿有来信,事如春梦了无痕”。在互联网世界则完全不同,是“处处行迹处处痕”。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的“请求”加“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,就是大数据技术的力所在。 1993 年,《纽约客》刊登了一副漫画,标题是“互联网上,没有人知道你是一条狗”,如图1-10 所示。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5 万美元。彼时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。譬如,同性恋和恋童癖可能会借助互联网而大行其道。 查看原图20 年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明性存在的。 事实上,对于未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让人们看到解决未来预测问题的一丝曙光。通过利用大数据技术,可以预测预测自然、天气的变化,预测个体未来的行为,甚至预测某些社会事件的发生。它会让我们的生活更为从容,让决策不再盲目,让社会更加高效的运转。这就是大数据技术带给我们的好处。全球复杂网络权威巴拉巴西认为,人类行为93%是可以预测的。我的确不知道这位老先生是怎么计算出来93%这个数字的,但大数据可以预测未来是显而易见的,这是首个使人类具备了预测短期未来的技术。 听起来似乎很玄妙,大数据不就是算命先生么? 其实,或多或少,人们都具备预测的能力。譬如,儿子跟小伙伴们疯玩,我知道他肯定在7 点之前会回家,因为他饿了。再如,家乡流传的很多谚语,其中一句“八月十五云遮月,正月十五雪打灯”,说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系,但是几千年的观察和积累,却发现了它。自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系。这些规律要么被神秘化,要么被庸俗化。 任何事情的发生,都会有蛛丝马迹的前兆表露出来。如果我们不去关注一支股票的行情走势,就不会去买卖这支股票;如果我们从不去询问某件商品的价格,也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气,似乎就没有透心凉的大雨。关于地震前种种异象,更是被许多书籍、文章大肆渲染。 假定有一种技术可以记录下所有这些先兆,人们就获得了未卜先知的能力。利用大数据技术,能够广泛采集各种各样的数据类型,进行统计分析,从而预测未来。大数据影响之深远,波及之广泛,远非一般的信息技术可比。 “过去我认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识,我们分析犯罪数据,识别犯罪模式,并部署警力,帮助美国部分城市重大犯罪率降低了30%。终结犯罪,在案发之前。”这是IBM 公司的一则广告,宣传利用大数据构建智慧的地球。 “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货出去以后再获得数据,而我们提前半年时间从询盘上就推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据,可以形成询盘指数和成交指数,这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以,当马云观察到询盘指数异乎寻常的下降后,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。 中国建设银行 的电子商务金融平台——“善融商务于2012 年6 月28 日正式开业。官方的宣传是“善融商务”是建设银行顺应电子商务发展潮流,结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据说建行内部推进电子商务的力度非常大,分行考核严厉,甚至亏本也要把小商家搬到网上。银行建立电子商务交易平台,听起来像不务正业,其实是醉翁之意不在酒。银行需要那些小商家的经营数据,来预测商家的贷款需求和还款能力,从而大幅降低小额借贷风险。建行此举,不论成功与否,都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力,对建行而言,就意味着低风险,高收益,是每家金融机构都梦寐以求的境界。常常说富贵险中求,传统经营一般是高风险,高收益;不料有了大数据在手,就能低风险,高收益,难怪金融机构趋之若鹜。如果金融机构再不重视大数据的潜在价值,行将成为21 世纪的恐龙,不复往日的荣光。
大数据的特点篇3:大数据时代企业竞争情报系统
本文转载自微信公众号:小骏马育成计划
文章作者:Sciker
随着企业市场竞争的日益加剧,企业竞争情报已经不 限于原有意义上的数据采集、整理、分类、发布的概念,“在线”需求逐步超越“离线”需求,“受动式服务” 正为“主动式、自助式”服务所取代,数据挖掘技术已经成为“信息分析”这个企业竞争情报系统中核心模块的技术支撑。企业级数据挖掘在CIS中的应用,也将成为知识经济下新兴的数据服务模式。
1.大数据的特征
大数据特征主要体现在三方面,即“3V”:Volume(体量),Velocity(速度)和Variety(多样性)。Volume(体量)指同一类型的数据在快速增长,目前在传感器网络、网络日志、社会网络(例如微博)、即时通讯记录(例如QQ)、电子商务(例如淘宝)等领域都将产生庞大的数据,PB级别将是常态,而且数据规模不断扩大。Velocity(速度)指数据增长的速度在加快,呈指数级持续增长,目前很多领域的数据都以惊人的速度增长,根据WinterCorp的调查显示,最大的数据仓库中的数据量每两年增加3倍(年均增长率为173%),其增长速度远超摩尔定律增长速度。照此增长速度计算,2015年最大数据仓库中的数据量将逼近100PB。Variety(多样性)指新的数据来源和 新的数据类型在不断增加,目前产生大数据的领域在不断增加,数据类型不仅包括普通文本、照片、音频、视频等等,还有像位置信息、链接信息等类型的数据,伴随着社交网络、移动计算和传感器等新技术不断产生,大数据中绝大部分是非结构化数据。
2. 竞争情报与竞争情报系统
竞争情报 ( Competitive Intelligence,简称CI)是能够系统化的对那些可能影响公司计划、决策和运营的外部信息进行采集、分析和管理所形成的知识性信息。它主要通过合法手段从公开信息资源中依靠方法和工具收集和分析竞争对手的能力、 弱点和意图等。 其主要面向服务对象从研发和市场的具体业务到宏观战略决策等。
竞争情报系统,又名CIS,是Competitive Intelligence System的缩写,是企业竞争战略管理实践中新出现的概念。
中国科技情报学会竞争情报分会名誉理事长包昌火先生认为,竞争情报系统是以人的智能为主导、信息网络为手段、增强企业竞争力为目标的人机结合的竞争战略决策支持和咨询系统。竞争情报系统可为企业赢得竞争优势提供强有力的智力支持和情报保障。
美国竞争情报从业者协会给出了一个竞争情报的标准模型:
3.企业竞争情报
美国竞争情报从业者协会(Society of Competitive Intelligence Professionals,简称SCIP)前主席、匹兹堡大学商学院的约翰·E·普赖斯科特教授指出:“企业竞争情报系统是一个持续演化中的正规化和非正规化操作流程相结合的企业管理子系统。它的主要功能是为组织成员评估行业关键发展趋势,把握行业结构的进化,跟踪正在出现的连续性与非连续性变化,以及分析现有和潜在竞争对手的能力和方向,从而协助企业保持和发展可持续性的竞争优势。”
企业竞争情报系统主要由三个子系统组成:
(1)竞争情报收集子系统
是企业CIS的重要构成,它是企业CIS的输入系统,是竞争情报工作的基础。因此,它的工作质量和速度,决定着企业CIS的效能和效益。
(2)竞争情报分析子系统
是企业竞争情报系统(CIS)的核心,是竞争情报的 “制造车间”。它是以人的智力为主导,通过 “黑箱”操作实行信息的集成、重组和智化。CIS及其企业竞争情报中心(CIC)的专职和兼职分析人员采用人工分析与机助分析相结合的手段,将竞争情报采集子系统所收集的信息有序化、系统化、层次化,将Information转化为Intelligence,“ 生 产”出真正有用的竞争性情报。
(3)竞争情报服务子系统
是企业CIS的输出系统,它的主要功能是面向企业各级决策层和各类用户提供情报产品和情报服务。因此,它的高效与否,关系到企业CIS的形象和成败。可以认为,企业CIS的收集、 分析、服务三个工作流程呈一个金字塔型。
竞争情报收集子系统就位于这个金字塔的最底层,而竞争情报分析子系统、竞争情报服务子系统分别构成了该塔的中间层和最高层。
4.数据挖掘
(1)数据挖掘的概念
数据挖掘(Data Mining,简称 DM)就是利用各种分析工具从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的,但却非常有用的信息、模式(规则)和趋势,这种模型能对未来作出预测和评估。要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。目前,数据挖掘技术在商业领域已经不是一个新名词,它最早成功应用于高投入、高风险、高回报的金融领域,现在正在不断向电信、保险、零售等客户资源信息密集的行业拓展。
(2)数据挖掘的一般过程
数据挖掘的一般过程由6个阶段组成:
a.定义问题
首先明确定义将要解决的问题。所以,数据挖掘者要熟悉该行业的数据和业务问题,缺乏这些,就不能够充分发挥数据挖掘的价值,很难得到正确的结果。模型的建立取决于问题的定义,有时相似的问题,所要求的模型几乎完全不同。
b.数据准备
有些人喜欢将数据挖掘看作一个不可思议的过程,认为它吞进的是原始数据,吐出来的则是钻石。而数据准备则是这个过程的核心。这一阶段又可分为3个子步骤:数据集成、数据选择、数据预处理。
数据集成:将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。
数据选择:目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。
数据预处理:是为了克服目前数据挖掘工具的局限性。
c.确定主题
数据挖掘过程的第三步是确定研究主题。数据挖掘是 一个经常需要回溯的过程。因此,没有必要在数据完全准备好之后才开始进行数据挖掘。随着时间的推移,你所使用的数据、你对它们分组的方式以及数据清洗的效果等都将改变,并有可能改进整个模型。这一步会涉及到了解研究主题的局限性,选择待完成的良好研究主题,确定待研究的合适的数据元素,以及决定如何进行数据操作等。
d.读入数据并建立模型
一旦确定要输入的数据之后,接着就是要用数据挖掘工具读入数据并从中构造出一个模型。根据所选用的数据 挖掘工具的不同,所构造出的数据模型也会有很大的差别。
e.挖掘操作
依照上述准备工作,利用选好的数据挖掘工具在数据中查找。这个搜索过程可以由系统自动执行,自底向上搜 索原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地找寻以验证假设的正确性。对数据挖掘的搜索过程需要反复多次,通过评价数据挖掘结果以不断调整数据挖掘的精度,以达到发现知识的目的。
f.结果表达和解释
根据最终用户的决策目标对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。
5.基于数据挖掘的企业竞争情报系统模型
知识经济时代,数据、信息成为重要的经济资源,随着信息资源总量的日益膨胀,企业面对堆积如山的数据往往无可奈何,无法充分发掘出应有的经济价值。在日新月异的海量数据里迅速提取有价值信息并尽快做出反应,成为许多企业的“致胜秘笈”。CIS是一个以竞争情报为处理对象的决策支持系统,它要求其数据平台建立在企业集成数据环境下,仅以企业的MIS、MRPⅡ、ERP数据库为数据源是不足以支持CIS的决策分析系统的。因此,利用数据挖掘技术充分实现数据的分析,从而构成一个全面高效的为企业高层决策服务的CIS系统。
基于数据挖掘的企业竞争情报系统模型如图所示:






