C++ STL中的unordered_multimap max_bucket_count()函数
在大数据处理时,常常需要使用散列表(unordered_map),散列表的实现方式虽然各家不同,但是其都采用了一定的哈希算法,将具有唯一性的key对象映射到不重复的value对象上。C++ STL中的unordered_multimap类是对散列表的一种封装,并提供了方便的操作。本篇文章将介绍unordered_multimap的一个重要函数——max_bucket_count()。
unordered_multimap类
unordered_multimap是C++ STL中的一个模板类,其定义如下:
template<class Key, class T, class Hash = std::hash<Key>,
class Pred = std::equal_to<Key>,
class Alloc = std::allocator<std::pair<const Key, T>>>
class unordered_multimap;
其中的参数定义依次为key类型、value类型、哈希函数类型、键值比较函数类型、以及存储器分配器类型。这里不详细介绍这些参数的定义,有兴趣的读者可以查看相关资料。
在unordered_multimap中,key和value都可以是任意类型的对象(需要保证key对象具有唯一性),而散列表采用链表的形式来存储相同散列值的元素。散列表内部采用动态的方式将链表扩展或缩小,以保证散列表的性能。
unordered_multimap支持的操作有insert、erase、find等,这些操作的时间复杂度都是O(1)的,但是涉及到散列表的扩容时可能需要花费较长的时间。如果需要保证查找的元素顺序,可以使用ordered_multimap类。
max_bucket_count()函数
max_bucket_count()是unordered_multimap类的一个成员函数,它的定义如下:
size_type max_bucket_count() const noexcept;
该函数没有参数,返回的是散列表最大桶的数量。在unordered_multimap中,桶也就是哈希值相同的元素链表的集合。散列表的尺寸是桶的数量,因此max_bucket_count()函数的返回值等价于散列表的最大尺寸。max_bucket_count()函数的时间复杂度是O(1)。
下面是一个简单的示例代码,演示了如何使用max_bucket_count()函数:
#include <unordered_map>
#include <iostream>
int main()
{
std::unordered_multimap<int, int> um;
std::cout << "Max bucket count of empty unordered_multimap: "
<< um.max_bucket_count() << std::endl;
for (int i = 0; i < 10; ++i) {
um.insert(std::make_pair(i, i + 10));
}
std::cout << "Max bucket count of unordered_multimap with 10 elements: "
<< um.max_bucket_count() << std::endl;
return 0;
}
程序的输出如下:
Max bucket count of empty unordered_multimap: 0
Max bucket count of unordered_multimap with 10 elements: 8
可以看出,在创建空的unordered_multimap时,其最大桶的数量为0,而在插入10个元素后,其最大桶的数量为8。因为unordered_multimap内部默认有一个质数序列,当桶的数量到达该质数序列的末尾时,散列表会自动扩容。unordered_multimap的默认质数序列是{17, 37, 79, 163, 331, 673, 1361, 2729, 5471, 10949, 21911, 43853, 87719, 175447, 350899, 701819, 1403641, 2807303, 5614657, 11229331, 22458671, 44917381, 89834777, 179669557, 359339171, 718678369, 143735674# 如何确定最佳的桶(bucket)数量
在实际应用中,如何确定unordered_multimap类应该采用多少个桶是一个重要问题。桶数量设置过小会导致散列冲突较多,从而影响散列表的性能,设置过大又会占用过多的内存空间。下面将通过一个实例来说明如何确定最佳的桶数量。
假设有一个大小为N的数据集合,需要建立一个散列表,对其中的数据进行查找。为了减少散列冲突的发生,我们可以采用计算哈希值时的除留余数法,不同的余数对应不同的桶。可以用如下方式来计算桶的数量:
bucket_count = ceil(N/avg_bucket_size)
其中,avg_bucket_size为每个桶包含的元素数量的平均值。可以通过实验或者分析对avg_bucket_size进行估计。如果avg_bucket_size太小,会导致桶的数量很大,从而浪费内存空间;如果avg_bucket_size太大,会导致散列冲突增多,从而影响性能。
当桶的数量确定之后,可以通过max_load_factor()函数来设置每个桶中元素的最大数量,从而控制散列冲突的程度。
下面是一个简单的示例代码,演示了如何根据数据量估算最佳桶数量,并通过max_load_factor()函数设置每个桶中的最大元素数量:
#include <iostream>
#include <unordered_multimap>
double avg_bucket_size = 8.0;
int main()
{
int N = 10000;
int bucket_count = (int) std::ceil(N / avg_bucket_size);
std::unordered_multimap<int, int> um;
um.max_load_factor(1.0/avg_bucket_size);
um.rehash(bucket_count);
std::cout << "Number of buckets: " << um.bucket_count() << std::endl;
std::cout << "Max load factor: " << um.max_load_factor() << std::endl;
// Insert N elements
for (int i = 0; i < N; ++i) {
um.insert(std::make_pair(i, i + 10));
}
return 0;
}
程序的输出如下:
Number of buckets: 1250
Max load factor: 0.125
可以看到,我们通过ceil函数计算出最佳的桶数量为1250,然后通过max_load_factor()函数将每个桶的元素数量限制为8个,从而得到了一个较为合理的散列表。
结论
unordered_multimap类是C++ STL内部封装的一个散列表类,提供了快速的元素查找、插入、删除等操作,其内部自动进行动态散列表的扩缩容。max_bucket_count()是unordered_multimap类中的一个关键函数,可以用来查询散列表的最大桶数量。在实际应用中,为了保证散列表的性能,需要由开发人员根据实际情况合理设置散列表的桶数量及每个桶中最大元素数量,以充分发挥unordered_multimap的性能优势。