多菜啊才这纠结半天？

2019-07-12 14:37 已编辑门头沟学院 C++

关注

问一道题，面试遇到的，不会

说的是有一亿条数据(假设里面是数字)，让我找出里面最大的五个数，我该怎么找，这些数据存在文件里，一行存一个。都不知道要考啥…我就说了一个一个读出来，再记录最大的五个数.答案肯定不是这个，不过确实不知道该往什么方向想，有带哥解答一下吗？感谢#题解#

全部评论

推荐最新楼层

快手_国际化服务端架构开发_Java开发工程师

先问一亿条数据是否存在一个文件，如果是的话，就顺序读取，建立一个有5个元素的小根堆，没读取一个元素就和小根堆顶作比较，如果比小根堆顶小就继续读取，如果比小根堆定大，就替换小根堆顶元素，并且重新构建根堆，直到全部读取完。如果存在几个文件中，则几个文件同时按照上述步骤进行，然后将所有小跟堆的数据整合，在从新进行小根堆操作。

点赞回复分享

发布于 2019-07-12 14:42

西安交通大学数据分析师

这种题目一般有内存限制，思想就是分治。有两种方法，一种就是利用哈希把大文件拆分成若干个小文件，每个小文件都在内存限制范围之内，依次读入内存，配合小顶堆，就能找出最小的n个数。另外一种就是使用分布式集群，利用哈希把大文件映射到多台节点上，每台机器分别计算，最后汇总

点赞回复分享

发布于 2019-07-12 15:03

纯情艳阳天

浙江大学 Java

用大小为5的小顶堆

点赞回复分享

发布于 2019-07-12 14:40

你午睡了么🔯

北京邮电大学 Java

topn 大顶堆?

点赞回复分享

发布于 2019-07-12 14:40

躺平大仙DiamondJ

南昌大学 Java

用mapreduce读?不太懂，等大神回答

点赞回复分享

发布于 2019-07-12 14:44

多菜啊才这纠结半天？

楼主

门头沟学院 C++

感谢牛友热心解答😁

点赞回复分享

发布于 2019-07-12 14:50

七彩祥云吞天

京东_数据开发

分布式读取哈哈

点赞回复分享

发布于 2019-07-12 14:51

阿里巴巴_阿里云_研发工程师

堆堆堆

点赞回复分享

发布于 2019-07-12 14:52

池里游啊游

北京青年政治学院 Java

大顶堆或者把这些数据分成1000份，每份里面取最大的5个。然后再把取出来的50000个数据里面取最大的五个。这样内存就存的下了。

点赞回复分享

发布于 2019-07-12 15:03

The University of Sydney 大数据开发工程师

应该可以用 mapreduce或者 spark吧。就是topN的问题，可以用小顶堆

点赞回复分享

发布于 2019-07-12 15:09

后端打杂人员

中国科学技术大学 C++

5只是个虚数，问题关键应该还是经典的TopK问题，5个元素的话用堆说实话不比数组有优势，1000个，10000个就差别明显了。

点赞回复分享

发布于 2019-07-12 17:19

百度_AIG_后台开发

局部淘汰法

点赞回复分享

发布于 2019-07-12 21:49

11-28 16:10

门头沟学院 C++

TL:简历9.8,一面10.11，二面10.17，谈薪11.26，offer 11.28给了北京南京两个base，差5k

点赞评论收藏

分享

11-23 12:20

东南大学电子工程师

南方电网笔试加油吧

在参加南方电网的笔试时，我心里其实是有点慌的，但看到同伴们也在紧张备考，我的心情瞬间平静了许多。为了这次考试，我花了整整七天时间复习，目标是85分以上。南方电网的覆盖范围和技术实力让我感到震撼，尤其是它在特高压输电领域的领先地位。虽然压力很大，但我相信只要努力，就一定能在这条求职路上走得更远。

投递中国南方电网等公司10个岗位 > 牛客创作赏金赛

点赞评论收藏

分享

10-11 00:21

厦门市槟榔中学电子工程师

很气啊，为什么问他能那么理直气壮的找备胎啊

ttyyds：哥们你好帅

点赞评论收藏

分享

评论

点赞

19

招聘动态

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 拼多多求职进展汇总 #

235390次浏览 2038人参与

# ai智能作图 #

24561次浏览 290人参与

# 阿里云管培生offer #

60833次浏览 1755人参与

# 25届秋招总结 #

403296次浏览 4040人参与

# 25届机械人为了秋招做了哪些准备？ #

25738次浏览 359人参与

# 地方国企笔面经互助 #

6735次浏览 16人参与

# 北方华创开奖 #

66498次浏览 550人参与

# 机械求职避坑tips #

22931次浏览 244人参与

# 实习，投递多份简历没人回复怎么办 #

2437968次浏览 34719人参与

# 软件开发投递记录 #

1480022次浏览 23938人参与

# 我的实习求职记录 #

6127272次浏览 83991人参与

# 歌尔求职进展汇总 #

42841次浏览 294人参与

# 机械人怎么评价今年的华为 #

157503次浏览 1349人参与

# 如果再来一次，你还会选择这个工作吗？ #

113253次浏览 1127人参与

# 我在牛爱网找对象 #

74567次浏览 553人参与

# 硬件兄弟们甩出你的华为奖状 #

78270次浏览 627人参与

# 经纬恒润求职进展汇总 #

99562次浏览 960人参与

# 如果可以，你希望哪个公司来捞你 #

32459次浏览 192人参与

# 联想求职进展汇总 #

203016次浏览 1816人参与

# 阿里求职进展汇总 #

72508次浏览 793人参与

# 牛客租房专区 #

5810次浏览 145人参与

217701次浏览 2546人参与

牛客网
牛客企业服务