大数据特点
大数据包含大量未经传统数据存储或处理单元处理的数据。许多跨国公司使用它来处理许多组织的数据和业务。数据流在复制之前会超过150艾字节每天。
有五个大数据的特点。
大数据的五个V
- Volume(大量)
- Veracity(真实性)
- Variety(多样性)
- Value(价值)
- Velocity(速度)
数据量
大数据这个名字本身就与巨大的规模相关。大数据是从许多来源每天产生的大量数据,例如 业务流程、机器、社交媒体平台、网络、人类互动 等。
Facebook 每天可以产生大约 10亿条 消息,大约有 45亿次 记录了”赞”按钮,还有超过 3.5亿个 新帖子上传。大数据技术可以处理大量的数据。
多样性
大数据可以是从不同来源收集到的结构化、非结构化和半结构化数据。过去只从数据库和表格中收集数据,但现在数据以数组形式出现,包括PDF文件、电子邮件、音频、社交媒体帖子、照片、视频等。
以下数据按如下分类:
- 结构化数据: 在结构化模式中,包括所有必需的列。它以表格形式呈现。结构化数据存储在关系型数据库管理系统中。
- 半结构化数据: 在半结构化模式中,模式没有得到适当定义,例如 JSON、XML、CSV、TSV 和 电子邮件 。OLTP(在线事务处理)系统被设计用于处理半结构化数据。这些数据以关系表的形式存储。
- 非结构化数据: 非结构化数据包括 非结构化文件、日志文件、音频文件和图像文件 等。一些组织拥有大量可用的数据,但不知道如何从这些原始数据中获取价值。
- 准结构化数据: 这种数据格式包含具有不一致数据格式的文本数据,使用一些工具经过努力和时间格式化。
示例:Web服务器日志,即由某些服务器创建和维护的包含一系列活动的日志文件。
真实性
真实性指数据的可靠程度。有很多方法可以过滤或转换数据。真实性是能够高效处理和管理数据的过程。大数据在企业发展中也非常重要。
例如,带有哈希标签的 Facebook帖子 。
价值
价值是大数据的一个重要特征。它不是我们处理或存储的数据本身,而是存储、处理和分析的 有价值 和 可靠的 数据。
速度
与其他因素相比,速度在数据处理中扮演着重要的角色。速度是指数据在 实时 创建的速度。它包含了传入数据集的链接速度、变化速率以及活动突发情况。大数据的主要目标是能够快速提供高需求的数据。
大数据 速度主要涉及数据从诸如应用程序日志、业务流程、网络和社交媒体网站、传感器和移动设备等源头流动的速度。