HotRing Java实现
HotRing是阿里2020年发表的一篇存储论文,估计很多人没听过,但是它很有意思,特别对于hash场景下的热点优化有很大的效果。简单来说,hotring就是在超高qps场景下如何快速访问热点数据。
https://github.com/azhsmesos/hotring
应该算是全网第一个Java实现版本,当然时间问题还在优化当中,但是可以先看看benchmark效果
工作负载 theta = 2 幂律分布因子
数据量级 10 ^ 7 数据 工作负载及其不均衡 的数据集 key是key,value是key出现的查询次数
可以看到分布及其不均匀,完全就是热点key场景
测试指标:
- findCnt 总的查找次数 反应完成任务的系统开销
- maxFindCnt 单次最高查找次数 反应系统的尾延迟,越低越好
- minFindCnt 最小查找次数 单次最优表现
- averageFindCnt: 平均查找次数
- Use Time:总耗时
theta | 工具 | 性能参数 |
2 | HashTable | |
2 | KHotRingCache | |
2 | HashMap | |
1 | HashTable | |
1 | KHotRingCache | |
1 | HashMap | |
0 | HashTable | |
0 | KHotRingCache | |
0 | HashMap |
从上面看到,因为HotRing的热点偏移特性,其查找次数和平均查找次数远远低于hashTable(底层是拉链法实现)
和jdk官方hashmap比较,由于jdk官方hashmap我不方便统计其红黑树的访问次数,仅仅访问了其get(方法的次数),也基本和khotRingCache持平,如果将其红黑树内部的item元素的遍历访问次数加上,肯定比KHotRingCache要多,这也说明KHotRingCache在工作负载不均衡,也就是有热点数据区间时,其查找次数要低于没有热点检测的map结构。至于耗时问题,可能我的链表增删改查实现和jdk官方还有很大差距,所以导致耗时会比hashmap高上50%左右,当然当前我还没有用上优化,仅仅实现了论文的随机热点检测,后续会实现采样热点检测,对于官方的很多字节上的优化我也会参考,不过想要在耗时上面超过官方还是有很大挑战性(也就是说要达到生产环境级别)。
而分布很均匀的时候,可以发现其实HotRing和HashTable的执行次数区别不大,因此hotRing适合于在热点分布很高(幂律分布)下使用。
下篇文章在介绍其实现原理,和benchmark的过程,代码已经放到github,不过短期内会重新迭代,欢迎点个star
#晒一晒我的offer##我的求职思考##校招##秋招##实习#