Hive 分桶
Hive中的分桶是一种数据组织技术。它类似于Hive中的分区,但额外提供了将大型数据集分割为更易管理的部分(称为分桶)的功能。因此,当分区实现变得困难时,我们可以在Hive中使用分桶。然而,我们也可以进一步将分区划分为分桶。
Hive中分桶的工作原理
- 桶的概念基于哈希技术。
- 在这里,计算当前列值的模和所需桶的数量(假设为F(x) % 3)。
- 现在,根据得到的值,数据被存储到相应的桶中。
在Hive中的桶选示例
- 首先,选择要在其中创建表的数据库。
hive> use showbucket;
- 创建一个虚拟表来存储数据。
hive> create table emp_demo (Id int, Name string , Salary float)
row format delimited
fields terminated by ',' ;
- 现在,将数据加载到表中。
hive> load data local inpath '/home/codegyani/hive/emp_details' into table emp_demo;
- 使用以下命令启用桶分配:
hive> set hive.enforce.bucketing = true;
- 使用以下命令创建一个分桶表: –
hive> create table emp_bucket(Id int, Name string , Salary float)
clustered by (Id) into 3 buckets
row format delimited
fields terminated by ',' ;
- 现在,将虚拟表的数据插入到桶化表中。
hive> insert overwrite table emp_bucket select * from emp_demo;
- 在这里,我们可以看到数据被分成了三个存储桶。
- 让我们检索存储桶0的数据。
根据哈希函数: 6%3=0 3%3=0 因此,这些列存储在桶 0 中。
- 让我们检索桶 1 的数据。
- 让我们检索桶2的数据。