排序问题
1.有一个10G大小的无序文件,文件里是32位无符号数(0~42亿,即:0 ~ 2^32 - 1),给你5G的内存空间,请对这个10G大小的文件进行排序?
一般的归并排序、快速排序等都需要将所有数据全都读到内存中,而本题有10G的数据,5G的内存显然放不下。
【解决方案】
利用堆和TopK的思想。
- 先准备一个有容量限制的小顶堆(为方便描述,容量暂定为10)和一个map。map的key是文件中的数字,value是数字对应出现的次数。
-
通过遍历这个文件,考虑将数字放到堆中:
- 先看遍历到的数字在不在map中,如果在,说明堆中有这个数,直接将对应的value+1;
- 如果不在map中,再看堆满没满,如果没满,直接把这个数放到堆和map中;
-
如果堆满了,比较这个数字和堆顶元素(10个数中最小的)的大小:
- 如果数字 < 堆顶元素,直接跳过;
- 如果数字 > 堆顶元素,就把堆顶元素剔除掉,同时删除对应的k-v,将遍历到的数加到堆和map里。
- 一次遍历后,堆里的这10个数就是本轮最大的10个数,将堆中的10个数按顺序输出到一个文件中,同时记录这10个数中的最小值,下次遍历时只遍历小于这个最小值的数。
- 这样经过几轮遍历之后,就能给这个文件排好序了。
【tips】堆越大,遍历的轮次越少。
2.