当前位置：极客笔记 > Hadoop > Hadoop 精选教程 > Hadoop 什么是大数据

Hadoop 什么是大数据

Hadoop 什么是大数据

数据规模非常庞大的数据被称为大数据。通常我们处理的数据大小为MB（WordDoc，Excel）或最大为GB（电影，代码），但是以Peta字节即10^15字节的大小的数据被称为大数据。据说今天90%的数据都在过去的3年中生成。

大数据的来源

这些数据来自许多来源，例如：

社交网络网站： Facebook、Google、LinkedIn等这些网站每天都产生大量的数据，因为它们在全球拥有数十亿用户。
电子商务网站： 像Amazon、Flipkart、Alibaba等网站产生大量的日志，可以追踪用户的购买趋势。
气象站： 所有的气象站和卫星都提供非常庞大的数据，这些数据被存储和处理以进行天气预报。
电信公司： 像Airtel、Vodafone这样的电信巨头研究用户趋势，并据此发布其计划，为此他们存储了其数百万用户的数据。
股票市场： 世界各地的股票交易所通过其日常交易产生大量的数据。

大数据的3V特点

速度： 数据的增长速度非常快。据估计，数据的容量将在每2年翻一番。
多样性： 现在的数据不再是以行和列存储的。数据既可以是结构化的，也可以是非结构化的。日志文件、闭路电视录像是非结构化数据。可以保存在表格中的数据是结构化数据，例如银行的交易数据。
容量： 我们处理的数据量非常庞大，达到了Peta字节的量级。

应用案例

一家拥有1亿用户的电子商务网站XYZ想要向其在前一年中消费最多的前10个客户提供一个价值100美元的礼品券。此外，他们还想要查找这些客户的购买趋势，以便公司可以推荐更多与之相关的物品。

问题

需要存储、处理和分析大量的非结构化数据。

解决方案

存储： 对于这么多的数据，Hadoop使用HDFS（Hadoop分布式文件系统），它使用普通硬件来形成集群并以分布式方式存储数据。它采用写一次，多次读取的原则进行工作。

处理： 使用Map Reduce范式对分布在网络上的数据进行处理以获得所需的输出。

分析： 可以使用Pig和Hive对数据进行分析。

成本： Hadoop是开源的，因此成本不再是一个问题。

Camera课程

Camera API2 教程

API2 教程

Camera 性能教程

Perf 教程

Camera Native Framework 教程

Native FW 教程

Camera QCOM ISP 教程

ISP 教程

Camera QCOM Sensor 教程

Sensor 教程

Python教程

Python 教程

Python 教程

NumPy 教程

NumPy 教程

Django 教程

Django 教程

Java教程

Java 教程

Java 教程

Web教程

JavaScript 教程

JavaScript 教程

jQuery 教程

jQuery 教程

CSS 教程

CSS 教程

PHP 教程

PHP 教程

Laravel 教程

Laravel 教程

TypeScript 教程

TypeScript 教程

WordPress 教程

WordPress 教程

数据库教程

SQL 教程

SQL 教程

SQLite 教程

SQLite 教程

MySQL 教程

MySQL 教程

PL/SQL 教程

PL/SQL 教程

MongoDB 教程

MongoDB 教程

图形图像教程

OpenCV 教程

OpenCV 教程

办公软件教程

Excel 教程

Excel 教程

Linux教程

Linux命令全集

Linux命令全集

Linux内核API

Linux内核API

LVGL 教程

LVGL 教程

计算机教程

操作系统教程

操作系统教程

计算机网络教程

计算机网络教程

C语言教程

C语言教程

C++ 教程

C++ 教程

Swift 教程

Swift 教程

大数据教程

Hadoop 教程

Hadoop 教程

Spark 教程

Spark 教程

Scala 教程

Scala 教程

开发工具教程

Git 教程

Git 教程

Jenkins 教程

Jenkins 教程

ChatGPT 教程

ChatGPT 教程

IntelliJ 教程

IntelliJ 教程

Hadoop 精选教程

回顶
回顶部