HDFS 存储组件数据集市

HDFS 存储组件数据集市

数据集市是一个存储组件,只关注组织中的某个特定功能领域,由单个部门负责,如市场营销、销售、财务等。数据集市和数据仓库都是HDFS的存储组件。数据集市包含数据仓库中存储的数据的子集。

  • 通过数据集市可以轻松访问常被请求的数据。

  • 与数据仓库相比,实施简单且成本较低。

  • 更容易进行更改,其较小的大小使其更快速构建,适应模型变化。

  • 数据集市有三种类型:依赖数据集市、独立数据集市和混合数据集市。

依赖数据集市

依赖数据集市依赖数据仓库来提取数据。首先,使用来自各种外部来源(通过ETL工具)的数据创建数据仓库,然后数据集市使用数据仓库中的数据。依赖数据集市与外部来源没有直接交互,仅依赖数据仓库获取数据。适合大型组织使用。

HDFS 存储组件数据集市

独立数据集市

独立数据集市不依赖于数据仓库,而是直接从外部来源收集数据。然后使用收集的数据设计数据仓库。适合小型组织,因为整个数据仓库的创建需要很长时间,如果首先创建数据集市,可以节省时间和成本。

HDFS 存储组件数据集市

混合数据集市

这种类型的数据集市从外部来源以及数据仓库收集数据。在进行Ad-hoc集成时非常重要,比如当出现新的数据组时,然后将其添加到组织中。它解决了依赖数据集市和独立数据集市的问题。这种类型的数据集市需要的数据清洗最少。在存在多个不同数据库的情况下快速实施非常有用。它支持大型存储结构,并灵活地用于较小的数据中心应用。

HDFS 存储组件数据集市

结论

本文介绍了数据集市,它是与数据仓库相同的存储组件,只关注组织的特定领域。数据集市有三种类型。第一种是依赖数据集市,它依赖于数据仓库来提取数据。第二种是独立数据集市,它直接从外部来源提取数据。第三种是混合数据集市,它从外部和数据仓库收集数据。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程