为什么 HashMap 的容量大小要设置为2的N次方？

原文链接：https://www.changxuan.top/?p=1208

前两天，我在一位同学提交中看到了下面这样的一行代码。

Map<String, String> temp = new HashMap<>(6);

我给他说，你这样实例化 Map 对象不好用，他不服气。我说小朋友：如果想指定 HashMap 对象的容量得用2的N次方。假如不是2的N次方那么在第一次put 元素的时候也会自动把容量设置为比传入参数大的最小的2的N次方，并不是你指定的这个值。他说你这也没用。我说，我这个有用，这样才能充分利用分配的内存空间，减少哈希碰撞次数。他非和我试试，我说可以，咱们先来看看源码。

什么是HashMap？

在弄懂标题的问题之前，首先需要清楚 HashMap 的概念。HashMap 是基于哈希表的 Map 接口的实现，线程不安全，且不保证映射顺序。

HashMap 存储数据依赖的是数组和[链表|红黑树]，具体链表和红黑树之间如何转换的细节此文不做详细介绍。而本文开头提到的实例化容量大小指的则是数组的大小。

如何计算元素在数组中所对应的下标？

首先计算元素的哈希值，方法如下：

static final int hash(Object key) {
        int h;
        /*
               * h = key.hashCode();
               * h = h ^ (h >>> 16)
        */
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

为什么不直接使用 key.hashCode()的值，我们后面会提到。

计算出来哈希值后，由于数组容量相对来说较小肯定不能直接使用哈希值当作索引值。所以需要使用哈希值对数组长度减一后的值取模。不过在在 HashMap 中可不是直接使用 % 运算符来操作的。为了提高效率，采用的是与运算的方式，代码如下：

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
            /* n 为数组容量， (n-1) & hash 则是计算索引值 */
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
          ... ...
        }
}

既然清楚了计算元算在数组中所对应下标的方法，那么证明为什么实例化 HashMap 对象的容量要使用2的N次方就简单多了。

假如初始容量为2的3次方数字8，当哈希值与容量大小减一的值进行与运算时可以保证结果比较均匀的分布在数组上。

  10100101 11000100 00100101
& 00000000 00000000 00000111 // 7
----------------------------------
  00000000 00000000 00000101 // 结果可以是[0,7]中的任一数字

如果初始容量为6，那么出现哈希冲突的几率就会增加了。

  10100101 11000100 00100101
& 00000000 00000000 00000101 // 5 
----------------------------------
  00000000 00000000 00000101 // 5

  10100101 11000100 00100111
& 00000000 00000000 00000101 // 5 
----------------------------------
  00000000 00000000 00000101 // 5

如果下面的值低位全是1，那么上面的这次哈希冲突则可以避免。

那么你想想，假如指定的容量大小为5又会怎么样呢？如果是5，那么就会出现非常严重的哈希碰撞，所以为了避免这种情况出现。HashMap 并没有傻乎乎的直接使用用户指定的容量大小。而是在实例化 HashMap 对象时，如果初始容量大小不是2的N次方则会把 threshold 设置成比传入初始容量大的最小的2的N次方。代码如下：

public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}

public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                                           initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    this.loadFactor = loadFactor;
    /* 设置 threshold */
    this.threshold = tableSizeFor(initialCapacity);
}

/* Returns a power of two size for the given target capacity.*/

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

在第一次调用 put 方法时，由于未初始化数组则会调用 resize() 方法初始化数组，而 threshold 参数则是初始化数组的长度。代码如下：

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    /* 初始化数组 */  
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    ... ...
}


final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {
        ... ...
    }
    else if (oldThr > 0) 
        newCap = oldThr;
    else {               
        ... ...
    }
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    /* 初始化数组 */
    @SuppressWarnings({"rawtypes","unchecked"})
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    ... ...
    return newTab;
}

其实2的N次方数字-1的二进制形式这个特性在好多地方会很好用，可以在小本本记上。

哦，前面说为什么计算出来的散列值需要再让高16位和低十六位做异或运算，主要是让参与与运算的位同时具有高位和低位的特征，来减少哈希碰撞次数。

最后，虽然你指定了容量大小，但是程序并没有按照你的意愿进行初始化数组，而且你的“错误”行为进行了纠错。

小朋友，还试不试啦！

全部评论

推荐最新楼层

昨天 23:17

门头沟学院研发工程师

秋招可以暂告一个段落啦

上周腾讯开奖后，本来想这周把字节三面和叠纸的hr面面完再决定的，但是不是很想折腾了，叠纸后面还有高管面，感觉就算过了最后也不一定有鹅香，就直接不拖签三方了。七月底开始的秋招，投了将近百来家，初筛/笔试/复筛挂了将近一半，面试了应该有五六十场，也经历了不少压力面，其实早就倦怠了，8月高强度八股后就再也没看过八股，也不想刷题了，每天处于一种躺等面试的状态，就这样一直拖到11月，终于等到结果了。可以轮到鼠鼠来写经验分享咯：一、 稳住心态整个秋招流程中一定会经历各种心态崩了的时刻，比如：为什么我这么匹配这个岗位结果初筛挂了？为什么我笔试都做出来了把我挂了？为什么我都答上来了还是没通过面试？其实都是正常...

查看6道真题和解析

点赞评论收藏

11-19 18:05

哈尔滨工业大学铸造/锻造工程师

24届上班上了几个月，疯狂想辞职

如上，已经工作3个月了，但是还是不喜欢上班，真的非常想辞职，但是家里人都不同意离职，工资又低。每个月根本就攒不到什么钱。 而且之前入职之前会有人说要带我，结果带了几天那个人离职了，我现在什么都要自己摸索，真的非常崩溃，而且晚上也要加班，没有自己的时间。 最重要的是自己总是达不到考核标准，天天焦虑内耗总担心自己被开了，所以想自己提，但是周围人都不同意，因为这份工作是双休而且交五险一金，真的很烦。 离职又担心找不到更好的工作，在这里呆着又天天内耗，而且这个公司不稳定，你业绩达不到标准，随时可能被开，心累。

如果再来一次，你还会选择这个工作吗？

点赞评论收藏

10-16 12:29

携程_移动安全研发

转正了呀

Yushuu：你的确很厉害，但是有一个小问题：谁问你了？我的意思是，谁在意？我告诉你，根本没人问你，在我们之中0人问了你，我把所有问你的人都请来 party 了，到场人数是0个人，誰问你了？WHO ASKED？谁问汝矣？誰があなたに聞きましたか？누가 물어봤어？我爬上了珠穆朗玛峰也没找到谁问你了，我刚刚潜入了世界上最大的射电望远镜也没开到那个问你的人的盒，在找到谁问你之前我连癌症的解药都发明了出来，我开了最大距离渲染也没找到谁问你了我活在这个被辐射蹂躏了多年的破碎世界的坟墓里目睹全球核战争把人类文明毁灭也没见到谁问你了😆

点赞评论收藏