艾伦·西蒙

很久以前,你是否在五​​毛钱或购物在服装零售商抓住糖果,店主被跟踪的你是什么样的采购。事实上,他们在追踪什么大家都在采购和进货基于哪些物品比别人快卖什么做出明智的决策。该数据维护是在日志完成用钢笔和一些心算,然后存储在一个文件柜。

如今,网上购物,社交媒体网络和店内甚至数字支付选择,见解客户的习惯已经长大远远超出了曾经管理的店内购物。带着估计2.24亿网上购物者仅在美国,存储和使所有的数据的意义是不小的任务。不仅公司需要存储数据,但它也需要从中提取相关信息。幸运的是,我们有像数据仓库,以帮助技术应对挑战。

在这篇文章中,我给你一个什么样的数据仓库,它是如何工作的,以及它背后的关键技术的概述。这是所有的信息,我从我30多年的经验,在数据仓库和我的课程借鉴,数据仓库基础入门,在那里我涵盖了建筑,三维设计的最佳实践,并在组织中实现数据仓库交换所需的数据。

让我们开始与数据仓库的基础知识。

数据仓库基础入门

最近更新2020年3月

畅销书
  • 68个讲座
  • 初学者级
4.5 (1105)

最佳实践和概念的架构和三维设计|作者:Alan西蒙

探索课程

数据仓库是什么?

数据仓库是数据聚集成一个存储的地方 - 至少,在逻辑上,并且通常,物理上。当我们从多个源应用程序和操作系统整合数据,大多是从我们企业内部,也来自外部数据提供商,我们可以得到关于我们的业务很多有价值的见解。

从包含公司的日常交易的记录,关系数据库的信息通常存储在仓库中的数据的类型。那么这个中央资料库中的数据进行重组,以支持报告,商业智能(BI)和分析 - 所有必要的工具,数据驱动的决策,以保持公司的竞争力。

数据仓库的基础上走到了一起,几个不同分析数据的管理理论诞生于20世纪80年代非常末90年代初。IBM的研究人员巴里·德夫林和保罗·墨菲被认为是先人们创造在80年代后期“业务数据仓库”。然后,在分布式数据库管理系统前期的努力失败了,比尔·因蒙定义为保持了整个90年代到21世纪数据仓库的规则。与此同时,拉尔夫·金博尔也对纪律作出了重大贡献,特别是在通过三维建模数据仓库的设计。数据仓库的概念,后来发展成为我们今天所看到的 - 已成长与计算机发展的一个复杂的系统。

数据仓库与数据库

让我们来清理混乱的一个共同点:数据仓库是不一样的数据库。简单地说,一个数据库中记录的数据,而数据仓库是为分析历史数据,并收集了交换数据​​的环境最好的思想。

数据仓库通常是建立在数据库之上。该数据库是平台,而数据仓库的使用。更多的数据源目前,比较复杂的数据仓库将成为。

一些最流行的数据仓库厂商目前包括亚马逊红移,谷歌的BigQuery,雪花,甲骨文和IBM DB2仓库等等。

什么是数据仓库的好处是什么?

数据仓库报价见解是什么公司的数据可能意味着,使数据驱动的决策。对于一个广阔例如,主管和经理看信息从他们的数据仓库,以了解他们的业务是如何做什么,如果有的话,趋势正在出现。然后,他们在某种程度上,这将导致战略变化解释数据。这些变化可以提供竞争优势,提高企业的寿命。

在更狭义的,这些数据的深入分析,所得决策跨度我国企业的广度,从销售到营销到财务,从制造到供应链,人力资源和人才。此外,这些数据的深入分析可以在地理的方式合并 - 发现所有公司的北美业务,例如,或者其在欧洲的所有操作。这些见解可以生产在企业层面,还是以一个组织的水平。从本质上讲,数据仓库是负责收集和整理数据,而商业智能的它的兄弟学科负责见解的交付。

数据仓库使用BI工具进行分析的意义,并制定战略基于其过去和当前状态,以提高企业未来的有效途径。

数据湖与数据仓库

与数据仓库经常听到一个术语数据湖。这是两个不同类型的数据存储用途,但每个之间的界限变得越来越模糊。

数据仓库主要是建立在关系型数据库管理系统(DBMS),如Microsoft SQL服务器,Oracle或IBM DB2之上。数据仓库典型地仅包括结构化的数据,如数字,字符串,日期等

一个数据湖带来任何类型的数据 - 是否结构的,非结构化的或半结构化的 - 一起从许多不同的来源和应用程序支持的分析。从本质上讲,数据通过湖应用和平台的障碍,有助于打破,并提供一站式的购物数据。数据湖泊用于管理非常大的数据量,快速的摄入量和数据的更新,以及 - 如上所述 - “数据综艺”通过处理结构化,半结构化和非结构化数据。他们建立在大数据环境中,如Hadoop的或AWS(亚马逊Web服务)的数据平台,比如S3,红移,极光和其他AWS数据平台之上。

在某些方面,数据湖可以被看作是一个继任者的数据仓库。大多数机构仍然有从数据仓库来他们的数据分析的基础上,但他们使用它旁边人工智能,机器学习,并通过数据驱动湖等先进的分析。

理想情况下,企业应该有自己的数据仓库和数据湖泊环境之间的良好架构的整合,以避免两者之间不必要的碎片。

什么是一些数据仓库技术?

数据仓库可以被认为是分学科,每一个是一组专门的技术,包括集合:

ETL - 抽取,转换,加载

当从它的源数据移动到仓库,一组进程称为发生提取,转换和加载(ETL)。这三个过程共同努力,格式和规范输入数据,以便它可以正确地加载到仓库。

萃取离它的原始工艺的进口数据和饲料的数据到数据仓库环境中尽可能快地。最小的变化是对所述输入数据作出;这个想法是能够摄取潜在大量的数据在一个有限时间窗口。

接下来是转型相。这是阶段即整理并通过使数值和结构相符将数据转换成一个统一模式。数据质量保证和认证,通过固定的已知错误或以其他方式试图阻止正在进入哪些用户可以访问错误的数据出现的改革的一部分。

一旦数据被均匀地,格式化的加载阶段就开始了。这包括采取这一暂时在提取阶段保存的数据,并把它永久地到目标数据库。

负载阶段是最后阶段,虽然整个ETL过程重复 - 并经常反复 - 数据仓库保持最新。数据的一个重要方面检索以数据仓库为三维建模,这使得它更容易和更快的检索数据。

三维建模

的技术三维建模与BI的数据仓库的兄弟纪律贴紧,并帮助我们构建数据事实(基本上,测量)和尺寸(基本上,我们如何切片,切块,和过滤这些事实)。

数据的三维建模,在本身,数据仓库的一个复杂的子学科。为了返回准确的见解,数据仓库必须通过定期添加从源系统中新的和更新的内容可以随时保持最新状态。一些附加的或修改的内容是新的事实,如新的销售,或退货及退款形式。或在其他领域,事实可能是结束的学期成绩在一所大学。其他附加或修改的内容是尺寸:一个全新的产品,新聘请教员,或有关客户谁把他们的第一顺序的人口统计信息。

即使在三维建模,我们就可以构建我们的数据库表到不同模式根据您的数据团队的架构方法。无论哪种方式,数据库的规则指导我们如何建立一个数据仓库中的数据库表和我们如何与这些表彼此。

星型和雪花模式

架构是数据仓库架构的一部分,它们在数据的整理与分析的作用。数据仓库经常使用两种模式,星型模式和雪花模式的。

星型模式有一个称为事实表的中央表,并且从数据的表,其它维度表干具有相关联的数据。尺寸表不相互​​结合 - 只对事实表 - 这样,它的星形。这是在一个数据仓库架构的最简单的形式,它是用来查询大型数据集。

雪花模式,顾名思义,是在雪花图案成形。像星型模式,雪花模式仍然有一个主要的事实表,但它有其他维度表干维度表。

商业智能工具通常提供对数据仓库的设计指导,星型或雪花型架构模型是否应该使用。一些BI工具与星型模式更好的工作,而另一些则对雪花模式进行了优化。无论哪种模式实施后,星型和雪花模式被设计为支持我们的数据的多维分析。

为什么要使用数据仓库?

数据工程师和人民谁与海量数据处理的类似职位往往会发现数据仓库的有用工具。希望有一个更简单的方法来访问大量数据的组织也可能更喜欢工作,数据仓库,而不是数据的湖泊。

方法有很多专业人士可能与数据仓库工作。一些数据仓库专家对数据仓库本身仅集中,如仓库的三维建模和ETL开发。betwayapp下载安装其他经典,基于关系的数据仓库仅工作,而另一些与决策科学(BI,数据可视化,以及其他分析形式)侧的数据仓库的使用方式工作。

通知数据驱动的业务决策的能力需要一个团队,在数据仓库论证的技能。拥有这些技能的专业人士看到他们的知识一贯的高需求为企业全面了解这两个新的发展,以及现有数据仓库的日常维护和增强数据能力的重要性。betwayapp下载安装

数据仓库如何实现更好的决策

总体而言,数据仓库是什么会为你的公司做什么?它会让精简一次耗时的过程,将数据备份意识,经营业绩,使员工能够使用数据更好地阐明见解您的业务效率和竞争力。

随着公司的数据整合,它变得更容易,一致和高品质,所有这些都迫切需要经营业务,强大的决策蓬勃发展。你花不必重复采集,整合,清理,并从不同的源组织数据,更多的时间,你可以花的故障排除方法来移动你的公司前进和改善你做什么的时间更少。

法师需要规划,构建技术,并与我的课程设计数据仓库数据仓库基础入门- 你会改变你的组织是如何组织数据,它会作为构建可靠的数据洞察的一个重要步骤。

最后更新日期:2020年6月