Hadoop 什么是大数据

Hadoop 什么是大数据

数据规模非常庞大的数据被称为大数据。通常我们处理的数据大小为MB(WordDoc,Excel)或最大为GB(电影,代码),但是以Peta字节即10^15字节的大小的数据被称为大数据。据说今天90%的数据都在过去的3年中生成。

大数据的来源

这些数据来自许多来源,例如:

  • 社交网络网站: Facebook、Google、LinkedIn等这些网站每天都产生大量的数据,因为它们在全球拥有数十亿用户。
  • 电子商务网站: 像Amazon、Flipkart、Alibaba等网站产生大量的日志,可以追踪用户的购买趋势。
  • 气象站: 所有的气象站和卫星都提供非常庞大的数据,这些数据被存储和处理以进行天气预报。
  • 电信公司: 像Airtel、Vodafone这样的电信巨头研究用户趋势,并据此发布其计划,为此他们存储了其数百万用户的数据。
  • 股票市场: 世界各地的股票交易所通过其日常交易产生大量的数据。

大数据的3V特点

  1. 速度: 数据的增长速度非常快。据估计,数据的容量将在每2年翻一番。
  2. 多样性: 现在的数据不再是以行和列存储的。数据既可以是结构化的,也可以是非结构化的。日志文件、闭路电视录像是非结构化数据。可以保存在表格中的数据是结构化数据,例如银行的交易数据。
  3. 容量: 我们处理的数据量非常庞大,达到了Peta字节的量级。

应用案例

一家拥有1亿用户的电子商务网站XYZ想要向其在前一年中消费最多的前10个客户提供一个价值100美元的礼品券。此外,他们还想要查找这些客户的购买趋势,以便公司可以推荐更多与之相关的物品。

问题

需要存储、处理和分析大量的非结构化数据。

解决方案

存储: 对于这么多的数据,Hadoop使用HDFS(Hadoop分布式文件系统),它使用普通硬件来形成集群并以分布式方式存储数据。它采用写一次,多次读取的原则进行工作。

处理: 使用Map Reduce范式对分布在网络上的数据进行处理以获得所需的输出。

分析: 可以使用Pig和Hive对数据进行分析。

成本: Hadoop是开源的,因此成本不再是一个问题。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程