2019-06-06 16:22 已编辑中山大学 golang

关注

海量数据判重

1. 问题描述

对于海量数据，要求判断一个数据是否已经存在。这个数据很有可能是字符串，例如 URL。

2. HashSet

最直观的方法是使用 HashSet 存储，那么就能以 O(1) 的时间复杂度判断一个数据是否已经存在。

考虑到数据是海量的，那么就需要使用拆分的方式将数据拆分到多台机器上，分别在每台机器上使用 HashSet 存储。我们需要使得相同的数据拆分到相同的机器上，可以使用哈希取模的拆分方式进行实现。

图片说明

3. BitSet

如果海量数据是整数，并且范围不大时，就可以使用 BitSet 存储。通过构建一定大小的比特数组，并且让每个整数都映射到这个比特数组上，就可以很容易地知道某个整数是否已经存在。因为比特数组比整型数组小的多，所以通常情况下单机就能处理海量数据。

图片说明

以下是一个 BitSet 的实现，当然在实际开发中可以直接使用语言内置的实现。

图片说明

使用 BitSet 还可以很容易地解决一个整数出现次数的问题，例如使用两个比特数组就可以存储 0~3 的信息。其实判重问题也可以简单看成一个数据出现的次数是否为 1，因此一个比特数组就够了。

4. 布隆过滤器

布隆过滤器能够以极小的空间开销解决海量数据判重问题，但是会有一定的误判概率。它主要用在网页黑名单系统、垃圾邮件过滤系统、爬虫的网址判重系统。

布隆过滤器也是使用 BitSet 存储数据，但是它进行了一定的改进，从而解除了 BitSet 要求数据的范围不大的限制。在存储时，它要求数据先经过 k 个哈希函得到 k 个位置，并将 BitSet 中对应位置设置为 1。在查找时，也需要先经过 k 个哈希函数得到 k 个位置，如果所有位置上都为 1，那么表示这个数据存在。

由于哈希函数的特点，两个不同的数通过哈希函数得到的值可能相同。如果两个数通过 k 个哈希函数得到的值都相同，那么使用布隆过滤器会将这两个数判为相同。

可以知道，令 k 和 m 都大一些会使得误判率降低，但是这会带来更高的时间和空间开销。

布隆过滤器会误判，也就是将一个不存在的数判断为已经存在，这会造成一定的问题。例如在垃圾邮件过滤系统中，会将一个邮件误判为垃圾邮件，那么就收不到这个邮件。可以使用白名单的方式进行补救。

图片说明

5. Trie

Trie 树又叫又叫字典树、前缀树、单词查找树，它是一颗多叉查找树。与二叉查找树不同，键不是直接保存在节点中，而是由节点在树中的位置决定。

如果海量数据是字符串数据，那么就可以用很小的空间开销构建一颗 Trie 树，空间开销和树高有关。

图片说明

Leetcode : Implement Trie (Prefix Tree)

图片说明

参考资料

Bloom Filters: Is element x in set S?

个人博客

https://github.com/CyC2018/CS-Notes

开源在 Github 上的个人博客，总结了技术面试必备的基础知识，在 Github 上关注数排在二十名左右。

#leetcode##面经##笔试题目##春招##实习#

全部评论

推荐最新楼层

牛客网创始人

配图颜值高啊。

点赞回复分享

发布于 2019-02-13 20:32

只是个废柴

中国矿业大学 golang

谢谢，学习到了

点赞回复分享

发布于 2019-02-13 21:08

华中科技大学 C++

配图颜值高

点赞回复分享

发布于 2019-02-13 23:42

湖南大学 Java

膜巨佬

点赞回复分享

发布于 2019-02-13 23:46

牛客2347492号

蚂蚁集团_选品平台_开发

前排围观巨佬

点赞回复分享

发布于 2019-02-14 10:34

西安电子科技大学算法工程师

请问bitset的方法为什么要除32，模32，之前学过，后来忘了😂

点赞回复分享

发布于 2019-02-14 11:43

门头沟学院金融分析师

优秀的cyc

点赞回复分享

发布于 2019-02-15 16:39

昨天 06:32

已编辑

门头沟学院 Java

PDD许愿offer 附timeline

9.22笔试10.16一面10.29二面11.4三面11.19HR面许愿OC，大厂跪完了

拼多多求职进展汇总

点赞评论收藏

分享

11-20 00:09

山西大学 OTA系统工程师

同学拿了50w的offer

他双飞本九硕，秋招竟然拿到了两个大厂的offer，一个暑期实习转正，年薪50万以上。听到周围朋友说找工作难，我还以为是普遍现象，没想到人家却如此顺利。真是个人的差距啊，心里五味杂陈。虽然我也在努力，但看到这样的成绩，难免会有些动摇。希望自己也能在未来的求职路上迎来转机！

程序员猪皮：普遍现象是对的，个例的幸运（实力）也是对的。不要对比，专注自己就好，加油

牛客创作赏金赛

点赞评论收藏

分享

11-02 12:31

燕山大学机械工程师

菜鸡offer选择！

投票

下周做决定，签三方了，麻烦各位了，评论区畅所欲言！ #机械人的offer怎么选# #offer帮选# #华为求职进展汇总# 华为引流

Offer来来来2000：福利：免费饮水。是我理解错了吗

机械人的offer怎么选 offer帮选

点赞评论收藏

分享

11-17 17:47

门头沟学院后端

第一家oc，太漫长了

终于拿到第一家oc了，一家游戏小厂，开的虽然不高，连暗号都对不了，不过好歹不加班，而且感觉上挺有技术，已经算是不错的选项了。虽然有大厂实习，有点心不甘，但已经有点面不动了，应该说，能开高点的游戏厂要么挂了，要么连面试都没给，太难了今年，本以为大厂实习是开始，没想到是巅峰。打算先签了，老老实实开始弄论文了，毕竟还有三座大山的压力，如果有大厂能愿意给面试的话，到时候再考虑抢救一下，不过游戏大厂基本全是995起步，都不知道自己这老年人能不能抗住。哎，算了，连面试都没有就开始幻想工作怎么样了，拿到oc就开始飘了吗，有点过于饥渴了，个人感觉，今年c++难度有点爆炸，除了劝退率极高的客...

独角兽内推__免笔试：同学，瞅瞅我司呀，我最新动态，绿灯直达，免笔试～

点赞评论收藏

分享

9 104 评论

招聘动态

杉川机器人

2025校园招聘

字节跳动

2025校园招聘

字节跳动Data

2025校园招聘

快手Star

2025届招聘

快手

销售类投递专区

库洛游戏

全站热榜

正在热议

# 晒一晒我的offer #

9713225次浏览 104868人参与

# 应届生被毁约被毁意向了怎么办 #

24804次浏览 233人参与

# 北方华创开奖 #

21450次浏览 244人参与

# 地方国企笔面经互助 #

2128次浏览 6人参与

# 查收我的offer竞争力报告 #

14113次浏览 200人参与

# 机械应届生薪资要多少才合适？ #

11950次浏览 58人参与

# 我的工作日记 #

20568次浏览 269人参与

# 寒假躺平还是提前实习 #

57256次浏览 419人参与

# 总结:哪家公司面试体验感最差 #

23927次浏览 116人参与

# 实习，投递多份简历没人回复怎么办 #

2384111次浏览 34210人参与

# 公司情报交流地 #

31225次浏览 220人参与

# 00后45度躺现状 #

35976次浏览 305人参与

# 秋招OC许愿 #

224638次浏览 1856人参与

# 不给转正的实习，你还去吗 #

1513162次浏览 16940人参与

# 没有实习经历，还有机会进大厂吗 #

803300次浏览 13777人参与

# 秋招拿一个offer可以躺平吗 #

103569次浏览 805人参与

# 机械人，签完三方你在忙什么？ #

23329次浏览 119人参与

# 选完offer后，你后悔学本专业吗 #

7368次浏览 47人参与

# 来聊聊机械薪资天花板是哪家 #

63607次浏览 431人参与

# 0offer是寒冬太冷还是我太菜 #

880291次浏览 7870人参与

# 大家都开始春招面试了吗 #

409872次浏览 5222人参与

牛客网
牛客企业服务