2021-11-08 20:50 江西师范大学 Java

关注

如何从 5 亿个数中找出中位数？

题目描述

从 5 亿个数中找出中位数。数据排序后，位置在最中间的数就是中位数。当样本数为奇数时，中位数为第 (N+1)/2 个数；当样本数为偶数时，中位数为第 N/2 个数与第 1+N/2 个数的均值。

解答思路

如果这道题没有内存大小限制，则可以把所有数读到内存中排序后找出中位数。但是最好的排序算法的时间复杂度都为 O(NlogN) 。这里使用其他方法。

更多技术文章、面试资料、工具教程，还请移步：http://www.javatiku.cn/

方法一：双堆法

维护两个堆，一个大顶堆，一个小顶堆。大顶堆中最大的数小于等于小顶堆中最小的数；保证这两个堆中的元素个数的差不超过 1。

若数据总数为偶数，当这两个堆建好之后，中位数就是这两个堆顶元素的平均值。当数据总数为奇数时，根据两个堆的大小，中位数一定在数据多的堆的堆顶。

class MedianFinder {

    private PriorityQueue<Integer> maxHeap;
    private PriorityQueue<Integer> minHeap;

    /** initialize your data structure here. */
    public MedianFinder() {
        maxHeap = new PriorityQueue<>(Comparator.reverseOrder());
        minHeap = new PriorityQueue<>(Integer::compareTo);
    }

    public void addNum(int num) {
        if (maxHeap.isEmpty() || maxHeap.peek() > num) {
            maxHeap.offer(num);
        } else {
            minHeap.offer(num);
        }

        int size1 = maxHeap.size();
        int size2 = minHeap.size();
        if (size1 - size2 > 1) {
            minHeap.offer(maxHeap.poll());
        } else if (size2 - size1 > 1) {
            maxHeap.offer(minHeap.poll());
        }
    }

    public double findMedian() {
        int size1 = maxHeap.size();
        int size2 = minHeap.size();

        return size1 == size2
            ? (maxHeap.peek() + minHeap.peek()) * 1.0 / 2
            : (size1 > size2 ? maxHeap.peek() : minHeap.peek());
    }
}

以上这种方法，需要把所有数据都加载到内存中。当数据量很大时，就不能这样了，因此，这种方法适用于数据量较小的情况。5 亿个数，每个数字占用 4B，总共需要 2G 内存。如果可用内存不足 2G，就不能使用这种方法了，下面介绍另一种方法。

更多技术文章、面试资料、工具教程，还请移步：http://www.javatiku.cn/

方法二：分治法

分治法的思想是把一个大的问题逐渐转换为规模较小的问题来求解。

对于这道题，顺序读取这 5 亿个数字，对于读取到的数字 num，如果它对应的二进制中最高位为 1，则把这个数字写到 f1 中，否则写入 f0 中。通过这一步，可以把这 5 亿个数划分为两部分，而且 f0 中的数都大于 f1 中的数（最高位是符号位）。

划分之后，可以非常容易地知道中位数是在 f0 还是 f1 中。假设 f1 中有 1 亿个数，那么中位数一定在 f0 中，且是在 f0 中，从小到大排列的第 1.5 亿个数与它后面的一个数的平均值。

提示，5 亿数的中位数是第 2.5 亿与右边相邻一个数求平均值。若 f1 有一亿个数，那么中位数就是 f0 中从第 1.5 亿个数开始的两个数求得的平均值。

对于 f0 可以用次高位的二进制继续将文件一分为二，如此划分下去，直到划分后的文件可以被加载到内存中，把数据加载到内存中以后直接排序，找出中位数。

注意，当数据总数为偶数，如果划分后两个文件中的数据有相同个数，那么中位数就是数据较小的文件中的最大值与数据较大的文件中的最小值的平均值。

方法总结

分治法，真香！

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

11-28 12:40

bilibili的打工体验

首先，部门的氛围不卷。大家每天完成自己的工作后就可以回家，没有那种紧张感，没谁盯着你。其次，组内的小伙伴们特别好，每天都约着一起去外面吃好吃的，大家聊天也很随意，氛围轻松。不过，B站在吃饭这块是真的抠。公司没有食堂，三餐得自己解决，每天只有15元的补助

哔哩哔哩公司氛围 96人发布

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-27 10:30

奇瑞感谢信

搞不懂奇瑞的要求是哪些，为什么全给我挂了

你都收到了哪些公司的感谢信？

点赞评论收藏

分享

11-27 13:54

腾讯_解决方案架构师

1、char占几字节？2、面向对象的三大特征？多态的实现原理？String类可以被继承吗？3、final关键字的作用？4、线程的生命周期？5、反射是什么？对IOC的理解？6、Spring创建Bean的三种方式？对Spring自动装配的理解？7、Spring Boot有哪些常用的注解？8、SQL的左连接和右连接？索引的分类？SQL优化的方式？9、对mybatis缓存的理解？10、equals和==的区别？11、线程安全的集合类有哪些？ConcurrentHashMap的构造原理？12、对线程安全的理解？解决线程安全的常用方式有哪些？13、Redis部署的模式有哪些？14、jdk8有哪些新特性？什...

查看18道真题和解析软件开发笔面经

点赞评论收藏

分享

评论

1

23

招聘动态

阿里云管培生

2025届校园招聘

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 拼多多求职进展汇总 #

237376次浏览 2039人参与

# 机械求职避坑tips #

23650次浏览 249人参与

# 北方华创开奖 #

67092次浏览 553人参与

# 25届秋招总结 #

411226次浏览 4128人参与

# 25届机械人为了秋招做了哪些准备？ #

26290次浏览 363人参与

# 地方国企笔面经互助 #

6963次浏览 17人参与

# 阿里云管培生offer #

62610次浏览 1760人参与

# ai智能作图 #

29094次浏览 351人参与

# 虾皮求职进展汇总 #

91789次浏览 750人参与

# 实习，投递多份简历没人回复怎么办 #

2440840次浏览 34746人参与

# 软件开发投递记录 #

1481651次浏览 23947人参与

# 我的实习求职记录 #

6133608次浏览 84021人参与

# 我在牛爱网找对象 #

74896次浏览 555人参与

# 发工资后，你做的第一件事是什么 #

9155次浏览 43人参与

# 985本硕1个中小厂offer，摆烂or继续努力 #

83307次浏览 602人参与

# 机械人怎么评价今年的华为 #

157965次浏览 1352人参与

# 京东求职进展汇总 #

513095次浏览 4680人参与

# 如果可以，你希望哪个公司来捞你 #

33960次浏览 196人参与

# 你觉得通信/硬件有必要实习吗？ #

54800次浏览 698人参与

# 歌尔求职进展汇总 #

42910次浏览 294人参与

# 在职场上，你最讨厌什么样的同事 #

6086次浏览 91人参与

# 如果再来一次，你还会选择这个工作吗？ #

115857次浏览 1144人参与

牛客网
牛客企业服务