Hadoop 什么是大数据
数据规模非常庞大的数据被称为大数据。通常我们处理的数据大小为MB(WordDoc,Excel)或最大为GB(电影,代码),但是以Peta字节即10^15字节的大小的数据被称为大数据。据说今天90%的数据都在过去的3年中生成。
大数据的来源
这些数据来自许多来源,例如:
- 社交网络网站: Facebook、Google、LinkedIn等这些网站每天都产生大量的数据,因为它们在全球拥有数十亿用户。
- 电子商务网站: 像Amazon、Flipkart、Alibaba等网站产生大量的日志,可以追踪用户的购买趋势。
- 气象站: 所有的气象站和卫星都提供非常庞大的数据,这些数据被存储和处理以进行天气预报。
- 电信公司: 像Airtel、Vodafone这样的电信巨头研究用户趋势,并据此发布其计划,为此他们存储了其数百万用户的数据。
- 股票市场: 世界各地的股票交易所通过其日常交易产生大量的数据。
大数据的3V特点
- 速度: 数据的增长速度非常快。据估计,数据的容量将在每2年翻一番。
- 多样性: 现在的数据不再是以行和列存储的。数据既可以是结构化的,也可以是非结构化的。日志文件、闭路电视录像是非结构化数据。可以保存在表格中的数据是结构化数据,例如银行的交易数据。
- 容量: 我们处理的数据量非常庞大,达到了Peta字节的量级。
应用案例
一家拥有1亿用户的电子商务网站XYZ想要向其在前一年中消费最多的前10个客户提供一个价值100美元的礼品券。此外,他们还想要查找这些客户的购买趋势,以便公司可以推荐更多与之相关的物品。
问题
需要存储、处理和分析大量的非结构化数据。
解决方案
存储: 对于这么多的数据,Hadoop使用HDFS(Hadoop分布式文件系统),它使用普通硬件来形成集群并以分布式方式存储数据。它采用写一次,多次读取的原则进行工作。
处理: 使用Map Reduce范式对分布在网络上的数据进行处理以获得所需的输出。
分析: 可以使用Pig和Hive对数据进行分析。
成本: Hadoop是开源的,因此成本不再是一个问题。