JDK8中的HashMap初始化和扩容机制详解-FinClip官网

JDK8中的HashMap初始化和扩容机制详解

网友投稿 1047 2023-01-08

JDK8中的HashMap初始化和扩容机制详解

一、HashMap初始化方法

HashMap() 不带参数，默认初始化大小为16，加载因子为0.75；

HashMap(int initialCapacity) 指定初始化大小；

HashMap(int initialCapacity, float loadFactor) 指定初始化大小和加载因子大小；

HashMap(Map extends K,? extends V> m) 用现有的一个map来构造HashMap。

二、分析初始化过程

1、初始化代码测试用例

Map map = new HashMap<>(3);

map.put("id", "1");

map.put("name", "riemann");

map.put("sex", "male");

2、初始化过程

public HashMap(int initialCapacity, float loadFactor) {

// 初始化大小小于0，抛出异常

if (initialCapacity < 0)

throw new IllegalArgumentException("Illegal initial capacity: " +

initialCapacity);

// 初始大小最大为默认最大值

if (initialCapacity > MAXIMUM_CAPACITY)

initialCapacity = MAXIMUM_CAPACITY;

// 加载因子要在0到1之间

if (loadFactor <= 0 || Float.isNaN(loadFactor))

throw new IllegalArgumentException("Illegal load factor: " +

loadFactor);

this.loadFactor = loadFactor;

// threshold是根据当前的初始化大小和加载因子算出来的边界大小，

// 当桶中的键值对超过这个大小就进行扩容

this.threshold = tableSizeFor(initialCapacity);

}

此时：loadFactor = 0.75 默认值

// 这个方法返回大于输入参数且最接近的2的整数次幂的数

static final int tableSizeFor(int cap) {

int n = cap - 1;

// 无符号向右移动

// 按位或

n |= n >>> 1;

n |= n >>> 2;

n |= n >>> 4;

n |= n >>> 8;

n |= n >>> 16;

return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;

}

此时：threshold = 4

三、分析扩容过程

1、第一次执行put操作后

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,

boolean evict) {

Node[] tab; Node p; int n, i;

// 如果存储元素的table为空，则进行必要字段的初始化

if ((tab = table) == null || (n = tab.length) == 0)

// 获取长度

n = (tab = resize()).length;

// 如果根据hash值获取的结点为空，则新建一个结点

// 此处 & 代替了 % （除法散列法进行散列）

if ((p = tab[i = (n - 1) & hash]) == null)

tab[i] = newNode(hash, key, value, null);

// 这里的p结点是根据hash值算出来对应在数组中的元素

else {

Node e; K k;

// 如果新插入的结点和table中p结点的hash值，key值相同的话

if (p.hash == hash &&

((k = p.key) == key || (key != null && key.equals(k))))

e = p;

// 如果是红黑树结点的话，进行红黑树插入

else if (p instanceof TreeNode)

e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value);

else {

for (int binCount = 0; ; ++binCount) {

// 代表这个单链表只有一个头部结点，则直接新建一个结点即可

if ((e = p.next) == null) {

p.next = newNode(hash, key, value, null);

// 链表长度大于8时，将链表转红黑树

if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st

treeifyBin(tab, hash);

break;

}

if (e.hash == hash &&

((k = e.key) == key || (key != null && key.equals(k))))

break;

// 及时更新p

p = e;

}

// 如果存在这个映射就覆盖

if (e != null) { // existing mapping for key

V oldValue = e.value;

// 判断是否允许覆盖，并且value是否为空

if (!onlyIfAbsent || oldValue == null)

e.value = value;

// 回调以允许LinkedHashMap后置操作

afterNodeAccess(e);

return oldValue;

}

// 更改操作次数

++modCount;

// 大于临界值

if (++size > threshold)

// 将数组大小设置为原来的2倍，并将原先的数组中的元素放到新数组中

// 因为有链表，红黑树之类，因此还要调整他们

resize();

// 回调以允许LinkedHashMap后置操作

afterNodeInsertion(evict);

return null;

}

2、第一put会进行resize()操作：

// 初始化或者扩容之后元素调整

final Node[] resize() {

// 获取旧元素数组的各种信息

Node[] oldTab = table;

// 长度

int oldCap = (oldTab == null) ? 0 : oldTab.length;

// 扩容的临界值

int oldThr = threshold;

// 定义新数组的长度及扩容的临界值

int newCap, newThr = 0;

// 如果原table不为空

if (oldCap > 0) {

// 如果数组长度达到最大值，则修改临界值为Integer.MAX_VALUE

if (oldCap >= MAXIMUM_CAPACITY) {

threshold = Integer.MAX_VALUE;

return oldTab;

}

// 下面就是扩容操作（2倍）

else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&

oldCap >= DEFAULT_INITIAL_CAPACITY)

// threshold也变为二倍

newThr = oldThr << 1; // double threshold

}

else if (oldThr > 0) // initial capacity was placed in threshold

newCap = oldThr;

// threshold为0，则使用默认值

else { // zero initial threshold signifies using defaults

newCap = DEFAULT_INITIAL_CAPACITY;

newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);

}

// 如果临界值还为0，则设置临界值

if (newThr == 0) {

float ft = (float)newCap * loadFactor;

newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?

(int)ft : Integer.MAX_VALUE);

}

// 更新填充因子

threshold = newThr;

@SuppressWarnings({"rawtypes","unchecked"})

Node[] newTab = (Node[])new Node[newCap];

table = newTab;

// 调整数组大小之后，需要调整红黑树或者链表的指向

if (oldTab != null) {

for (int j = 0; j < oldCap; ++j) {

Node e;

if ((e = oldTab[j]) != null) {

oldTab[j] = null;

if (e.next == null)

newTab[e.hash & (newCap - 1)] = e;

// 红黑树调整

else if (e instanceof TreeNode)

((TreeNode)e).split(this, newTab, j, oldCap);

else { // preserve order

// 链表调整

Node loHead = null, loTail = null;

Node hiHead = null, hiTail = null;

Node next;

do {

next = e.next;

if ((e.hash & oldCap) == 0) {

if (loTail == null)

loHead = e;

else

loTail.next = e;

loTail = e;

}

else {

if (hiTail == null)

hiHead = e;

http:// else

hiTail.next = e;

hiTail = e;

}

} while ((e = next) != null);

if (loTail != null) {

loTail.next = null;

newTab[j] = loHead;

}

if (hiTail != null) {

hiTail.next = null;

newTab[j + oldCap] = hiHead;

}

return newTab;

}

四、小结

第一次put后：threshold = newCap * loadFactor = oldThr * loadFactor = 4 * 0.75 = 3

第二次put后：++size = 3,不进行扩容

第三次put后：++size = 4，进行扩容

oldCap = oldTab.length = 3

newcap = oldCap << 1 = 6

threshold = newThr = newCap * loadFactor = 6 * 0.75 = 4

结论：设置初始化容量n，初始化threshold = 大于n数且最接近的2的整数次幂的数 * 负载因子

JDK8中的HashMap深入理解

一、首先看一下HashMap的数据结构（数组+链表/红黑树），如下图：

1、红黑树特性（缺一不可）：

(1)、每个节点要么是红色要么是黑色。

(2)、根节点是黑色。

(3)、所有叶子节点都是黑色（叶子节点为NIL或者NULL节点）。

(4)、不存在两个连续的红色节点。

(5)、任意节点（包含跟节点）到其叶子节点的所有路径都包含相同数目的黑色节点。

2、为什么HashMap中使用红黑树而不使用AVL树呢？

红黑树被称为弱AVL树，牺牲了严格的高度平衡的优越条件为代价（红黑树左右子树的高度差不超过一倍即可）使其能够以O(log2 n)的时间复杂度进行搜索、插入、删除操作；此外，由于它的设计，任何不平衡都会在三次旋转之内解决。因为HashMap的使用场景中插入和删除操作是非常频繁的，所以在HashMap中使用了红黑树。

3、红黑树RBT与平衡二叉树AVL比较：

(1)、红黑树和AVL树类似，都是在进行插入和删除操作时通过特定操作保持二叉查找树的平衡，从而获得较高的查找性能。

(2)、红黑树和AVL树的区别在于它使用颜色来标识节点的高度，它所追求的是局部平衡而不是AVL树中的非常严格的平衡。

(3)、AVL 树比红黑树更加平衡，但AVL树在插入和删除的时候也会存在大量的旋转操作。所以当你的应用涉及到频繁的插入和删除操作，切记放弃AVL树，选择性能更好的红黑树；当然，如果你的应用中涉及的插入和删除操作并不频繁，而是http://查找操作相对更频繁，那么就优先选择 AVL 树进行实现。

二、HashMap元素插入过程及一些参数的详解

1、首先，需要了解HashMap源码中几个重要的参数：

DEFAULT_INITIAL_CAPACITY：默认初始化大小

MAXIMUM_CAPACITY：最大容量

DEFAULT_LOAD_FACTOR：默认的负载因子

TREEIFY_THRESHOLD：链表转化为红黑树的阈值（包含）

UNTREEIFY_THRESHOLD：红黑树转化为链表的阈值（包含）

MIN_TREEIFY_CAPACITY：当数组大小小于该值时，不进行链表向红黑树的转化，而是进行扩容

2、HashMap存储元素过程：

（1）图中刚开始有计算 key 的 hash 值的设计？

拿到 key 的 hashCode，并将 hashCode 的高16位和 hashCode 进行异或（XOR）运算，得到最终的 hash 值。

（2）为什么要将 hashCode 的高16位参与运算？

主要是为了在 table 的长度较小的时候，让高位也参与运算，并且不会有太大的开销。

（3）为什么链表转红黑树的阈值是8？

我们平时在进行方案设计时，必须考虑的两个很重要的因素是：时间和空间。对于 HashMap 也是同样的道理，简单来说，阈值为8是在时间和空间上权衡的结果。红黑树节点大小约为链表节点的2倍，在节点太少时，红黑树的查找性能优势并不明显，付出2倍空间的代价不值得。理想情况下，使用随机的哈希码，节点分布在 hash 桶中的频率遵循泊松分布，按照泊松分布的公式计算，链表中节点个数为8时的概率为0.00000006，这个概率足够低了，并且到8个节点时，红黑树的性能优势也会开始展现出来，因此8是一个较合理的数字。

（4）HashMap 的默认初始容量是多少？HashMap 的容量有什么限制吗？

默认初始容量是16。HashMap 的容量必须是2的N次方，HashMap 会根据我们传入的容量计算一个大于等于该容量的最小的2的N次方，例如传 9，容量为16。

（5）为什么HashMap 的容量必须是 2 的 N 次方？

计算索引位置的公式为：(n - 1) & hash，当 n 为2的N 次方时，n - 1为低位全是 1 的值，此时任何值跟 n - 1 进行 &运算的结果为该值的低 N 位，达到了和取模同样的效果，实现了均匀分布。实际上，这个设计就是基于公式：x mod 2^n = x & (2^n - 1)，因为 &运算比 mod 具有更高的效率。当 n 不为 2 的 N 次方时，hash 冲突的概率明显增大。

（6）为什么HashMap的负载因子默认为0.75？

在HashMap的类注释上有如图一段解释：大致意思是说负载因子是0.75的时候，空间利用率比较高，而且避免了相当多的Hash冲突，使得底层的链表或者是红黑树的高度比较低，提升了空间效率。

react 前端框架如何驱动企业数字化转型与创新发展

1047 2023-01-08

JDK8中的HashMap初始化和扩容机制详解

react 前端框架如何驱动企业数字化转型与创新发展

轻量级前端框架助力开发者提升项目效率与性能

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计