数据仓库是什么


企业对联 2019-10-18 19:25:47 企业对联
[摘要]数据仓库是什么篇(1):什么是企业数据仓库?如今,数据分析已经成为帮助企业做出战略决策的关键。软件工具可以帮助企业发现模式或者发现各种流程的洞察。用于实施这些策略的数据系统通常作为供应商特定的企业数据仓库解决方案而存在。在这些应用程序中,信息被加载和结构化,以便从非常大的数据集合中提供最有效的结果。

【www.shanpow.com--企业对联】

数据仓库是什么篇(1):什么是企业数据仓库?


如今,数据分析已经成为帮助企业做出战略决策的关键。软件工具可以帮助企业发现模式或者发现各种流程的洞察。用于实施这些策略的数据系统通常作为供应商特定的企业数据仓库解决方案而存在。在这些应用程序中,信息被加载和结构化,以便从非常大的数据集合中提供最有效的结果。
数据仓库
数据仓库是用来提供新的业务洞察力的数据中心存储库。这些数据代表了业务的全面一致的观点。通常,这些历史数据集具有以下特征::
·面向主题:数据仓库通常提供特定的主题或业务需求,如销售或生产效率。
·时变性:数据是历史性的,因此可以用特定的时间框架来分析结果,例如在过去两年中按每月或按季度计算。企业数据仓库通常是由事务系统中封装的数据提供的,其中只有最近的数据是必需的。例如,事务系统可能只反映客户最近的电话号码,而数据仓库将包含所有以前使用的号码。
·集成性:数据仓库将来自多个不同来源的信息整合到同一视图中。例如,不同的商店可能具有相同产品的不同名称,但它们仍将具有相同的库存单元(SKU)或零件号。
·非易失性:存储在企业数据仓库中的信息不会改变。为了保持历史数据的完整性,它是只读的,从不改变。
什么样的数据加载到数据仓库?
业务数据操作几乎是实时的,例如从连锁商店在POS机终端捕获的销售信息。每日销售数据由系统捕获并送入数据文件。然后,这些文件将得到ETL(提取,转换和加载)软件或脚本的管理,或将该数据“归一化”到可直接上传到数据仓库表中的字段。
例如,一家大型零售连锁店将要捕捉销售商品的数据,例如,销售人员,商店,时间,付款方式,特别优惠或优惠券等等。另一家公司可能更有兴趣收集客户服务活动以进行定期绩效分析。
大多数存储的数据是关系型的。这意味着信息以能够与单个表链接的数字ID字段的形式存在,例如链接到文本的产品名称的产品ID列表和每个不同ID的描述。这可以节省企业数据仓库的空间,同时在数据报告中提供更有意义的信息。
数据仓库与传统数据库的区别
数据库通过捕获信息(无论是电子自动的还是人工采集的)来支持日常操作。这些也称为事务或操作数据库。它们主要用于从源头捕获信息。数据库还允许对信息进行编辑,以更加密切地反映真实世界的变化。它们针对数据输入进行了优化:协调小型而频繁的更新和添加。数据被组织成行或单个记录。
虽然这两个系统都可以用于报告,但数据仓库是为聚集大量固定信息而设计的。从事务数据中运行的报表中的信息可能会发生更改。
数据仓库主要用于报告和分析业务操作,以便识别模式。信息通常从一个或多个数据库中提取,成为数据仓库中的历史记录。数据仓库将反映所有的变化。大多数企业数据仓库解决方案要求以列或以维度(如时间或位置)的方式存储信息,以检索一系列度量单位,如美元或数量。这允许在相同的报告工具中深入了解各种细节。
数据集市
规模较小的公司,甚至大公司当接近一个特定的数据项目,可能将数据分割更小的、更有限的数据集,被称为“数据集市”。这样可以消除过多或不相关信息的运营开销。数据集市可以根据需要从数据仓库中提取,或者单独存在。
新公司或小公司可能不需要维护数据仓库。但是在大中型企业中,通常每天都使用事务性数据库和数据仓库。重要的区别是,企业数据仓库解决方案是只读和优化的,用于分析不断增长的业务数据,以支持业务决策。

数据仓库是什么篇(2):什么是数据仓库-数据仓库的基本概念-数据仓库-数据挖掘

什么是数据仓库-数据仓库的基本概念
  有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。
  1.数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之父”WilliamH.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。
  数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。
  2 基于数据仓库的决策支持系统(DSS)由三个部件组成:数据仓库技术(Data warehousing),联机分析处理技术(OLAP,On—Line Analytical Pro—cessing),数据挖掘技术(Data Mining)。
  联机分析处理(OLAP,On—Analytical Pro—cessing)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP侧重于数据仓库的数据分析,并将其转换成辅助决策信息。OLA P的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。问此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。OLAP的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支持的支柱,也是OLAP的核心。
  数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。
  数据仓库概念的提出者、美国著名信息工程专家 William Inmon 博士在90年代初提出了数据仓库概念的一个表述。他认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。”
  所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
  所谓集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
  所谓随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。
  依据上面的定义,有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。因此数据仓库是一个动态的概念,应该称为数据仓库工程

数据仓库是什么篇(3):数据仓库


什么是数据仓库
数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
数据仓库的组成
数据仓库数据库:是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
数据抽取工具:把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;
元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
访问工具:为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。
数据集市(Data Marts):为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject area)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。
数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。
建立数据仓库
为什么要建立数据仓库:
商业上:利用所有可能的数据快速而正确的做出决策;用户是业务领域的专家,而不是计算机专业人员;企业数据每18个月翻一番,需要有一种有效的访问这些数据的方法;在商业智能和有利用效企业数据方面,竞争的加剧。
技术上:计算机的计算能力越来越便宜(MIPS价格的下跌);存储介质价格的下跌; 网络带宽的增长,网络的传输能力越来越便宜;整个企业的计算机环境越来越复杂,各个时代各个不同厂家的应用系统同时存在; 新的应用要访问其他应用的数据。
实施数据仓库应注意的问题:
商业上(考虑投资回报率)
实施的步骤:从上到下还是从下到上
人力资源的问题:培训还是雇佣
设计上(think big, but start small)
可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。
数据仓库相对于OLTP来说,更加是业务驱动(business-driven)的而不是技术驱动的(IT-driven),需要和最终用户不断的交流,建立的过程可能永远不会结束。
要点:
1) 数据仓库中应该包含细节数据(清理过的)。
2) 用户能看到的任何数据都应该在元数据中有对应的描述。
3) 考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器总如何分配,按主题、地理位置、还是时间?这些策略对整个数据仓库的性能影响很大。
4) 当选用数据仓库设计工具时应注意:工具支持的元数据格式是否与数据仓库支持的元数据格式相容?不同工具的元数据格式之间能否自由转换?
5) 最终用户对数据仓库的使用方式对数据仓库的性能影响很大,在设计数据仓库模型时为了提高性能应将用户对数据仓库的使用方式考虑在内。
设计数据仓库的九个步骤:
1) 选择合适的主题(所要解决问题的领域)
2) 明确定义fact表
3) 确定和确认维
4) choosing the facts
5) 计算并存储fact表中的衍生数据段
6) rounding out the dimension tables
7) choosing the duration of the database
8) the need to track slowly changing dimensions
9) 确定查询优先级和查询模式。
技术上
硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?
数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。
网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。
实现上
建立数据仓库的步骤:
1) 收集和分析业务需求
2) 建立数据模型和数据仓库的物理设计
3) 定义数据源
4) 选择数据仓库技术和平台
5) 从操作型数据库中抽取、净化、和转换数据到数据仓库
6) 选择访问和报表工具
7) 选择数据库连接软件
8) 选择数据分析和数据展示软件
9) 更新数据仓库
数据抽取、清理、转换、和移植
1) 数据转换工具要能从各种不同的数据源中读取数据。
2) 支持平面文件、索引文件、和legacy DBMS。
3) 能以不同类型数据源为输入整合数据。
4) 具有规范的数据访问接口
5) 最好具有从数据字典中读取数据的能力
6) 工具生成的代码必须是在开发环境中可维护的
7) 能只抽取满足指定条件的数据,和源数据的指定部分
8) 能在抽取中进行数据类型转换和字符集转换
9) 能在抽取的过程中计算生成衍生字段
10) 能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11) 必须对软件供应商的生命力和产品支持能力进行仔细评估
主要数据抽取工具供应商:Prism solutions. Carleton"s PASSPORT. Information Builders Inc."s EDA/SQL. SAS Institute Inc.
元数据
是整个数据仓库环境运行和维护的中心,各种软件和工具都要访问这部分数据。Prim提供了Directory Manager来开发和管理元数据。
用户
偶然用户(Casual User):只需要访问一些预定义的查询、生成报表等。不需要任何工具,只是看一看。
高级用户(Power User):通常需要自己定义一些简单的查询或把预定义好的查询组合一下,通常需要drill-drown。此类用户需要哪些为非计算机人员开发的数据查询工具。
专家(Expert):此类用户通常需要自己定义复杂的查询,直接分析数据仓库中存放的各种数据。
建立数据仓库的好处
数据仓库应用包括:数据定位;数据呈现(报表和图表);检验假设;知识发现;共享分析。
有形的好处
改善产品库存控制;降低常品推广费;更加高效的制订决策;能提供一个关于整个企业的big picture。
无形的好处
通过把所有的数据放在一个地方,方便存取,提高生产效率;减少重复数据处理和分析;提高用户种程度;为商务流程再造成提供支持。

本文来源:https://www.shanpow.com/dl/496169/

《数据仓库是什么.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

相关阅读
  • 春节企业对联50句范文(精选三篇) 春节企业对联50句范文(精选三篇)
  • 春节企业对联50句汇编3篇 春节企业对联50句汇编3篇
  • 煤矿企业对联100副欣赏精选三篇 煤矿企业对联100副欣赏精选三篇
  • 营销活动方案 营销活动方案
  • 打赢疫情防控、实现经济社会发展心得体会 打赢疫情防控、实现经济社会发展心得体会
  • 村扶贫工作汇报材料 村扶贫工作汇报材料
  • 2019年“支部建设提升年”活动实施方案 2019年“支部建设提升年”活动实施方案
  • 企业安全生产心得体会 企业安全生产心得体会
为您推荐
  • 年会主持人开场白 医院晚会主持人开场白
    年会主持人开场白 医院晚会主持人开场白
    年会指某些社会团体一年举行一次的集会,是企业和组织一年一度的“家庭盛会”,主要目的是客户答谢,激扬士气,制造快乐能量,营造组织气氛、深化内部沟通、促进战略分享、增进目标认同,并
  • 企业承诺书 公司员工入职承诺书
    企业承诺书 公司员工入职承诺书
    承诺书是 承诺人对要约人的要约完全同意的意思,表示以书面形式。通常是要求以书面订立的合同,其承诺也必须采取书面形式。本站今天为大家精心准备了企业承诺书 公司员工入职承诺书,希望对大家有所帮助!企业承诺
  • 机关团体企业事业等单位定期开展什么及时消除火灾隐患
    机关团体企业事业等单位定期开展什么及时消除火灾隐患
    机关团体企业事业等单位定期开展什么及时消除火灾隐患机关、团体、企业、事业等单位应当落实消防安全主体责任,定期开展(),及时消除火灾隐患。A、监管、督查B、防火检查、巡查C、消防检查、管理正确答案是
  • 按通常标准分,以下哪个不属于互联网金融的是
    按通常标准分,以下哪个不属于互联网金融的是
    按通常标准分,以下哪个不属于互联网金融的是按通常标准分,以下不属于互联网金融的是()。A、众筹B、P2PC、第三方支付D、IPO正确答案是:D互联网金融(ITFIN)是指传统金融机构与互联网企业利用互
  • 以安全生产为主题的征文
    以安全生产为主题的征文
    安全文化是安全生产的灵魂,它能够引导激励企业干部职工忠实履行各自的安全生产责任,自觉、自信和自如的实现各类安全生产活动,固然“铁板定
  • 社会保险基金风险防控措施
    社会保险基金风险防控措施
    社会保险基金风险防控措施该怎么写?下面是本站为大家带来的社会保险基金风险防控措施,希望能帮助到大家!社会保险基金风险防控措施2018年,睢宁县企业职工养老保险参保人数达8 26万人,征缴养老保险金56
  • 食品安全问题作文
    食品安全问题作文
    “食品企业,良心事业”,要想彻底杜绝食品安全,首先就要从生产商上找问题。以下是本站分享的食品安全问题作文,希望能帮助到大家!食品安全问题作文现在大多数人的生活质量就是达到三好,
  • 安全征文1000字
    安全征文1000字
    安全征文该怎么写?以下是本站分享的安全征文1000字,希望能帮助到大家!安全征文1000字安——全,在唇齿的开合之间,是一个很轻易的说出来,却又很沉重的一个词。这个词,从我们
  • 关于机关事业单位工作人员病退和病休期间待遇问题的通知
    关于机关事业单位工作人员病退和病休期间待遇问题的通知
    一些没有达到国家或企业退休年龄条件或服务期限就退休的,就是提前退休,很多人会因为生病而进行退休,来安心养病。那么事业单位病退条件最新规定是怎样的
  • 职业经理人聘用合同书
    职业经理人聘用合同书
    职业经理人是指具备一定职业素质和职业能力,掌握企业经营权,并将经营管理工作作为其长期职业的。以下是本站小编为大家带来的关于职业经理人聘用合同书,以供大家参考!职业