问一道题,面试遇到的,不会

说的是有一亿条数据(假设里面是数字),让我找出里面最大的五个数,我该怎么找,这些数据存在文件里,一行存一个。都不知道要考啥…我就说了一个一个读出来,再记录最大的五个数.答案肯定不是这个,不过确实不知道该往什么方向想,有带哥解答一下吗?感谢#题解#
全部评论
先问一亿条数据是否存在一个文件,如果是的话,就顺序读取,建立一个有5个元素的小根堆,没读取一个元素就和小根堆顶作比较,如果比小根堆顶小就继续读取,如果比小根堆定大,就替换小根堆顶元素,并且重新构建根堆,直到全部读取完。 如果存在几个文件中,则几个文件同时按照上述步骤进行,然后将所有小跟堆的数据整合,在从新进行小根堆操作。
点赞 回复 分享
发布于 2019-07-12 14:42
这种题目一般有内存限制,思想就是分治。有两种方法,一种就是利用哈希把大文件拆分成若干个小文件,每个小文件都在内存限制范围之内,依次读入内存,配合小顶堆,就能找出最小的n个数。另外一种就是使用分布式集群,利用哈希把大文件映射到多台节点上,每台机器分别计算,最后汇总
点赞 回复 分享
发布于 2019-07-12 15:03
用大小为5的小顶堆
点赞 回复 分享
发布于 2019-07-12 14:40
topn 大顶堆?
点赞 回复 分享
发布于 2019-07-12 14:40
用mapreduce读?不太懂,等大神回答
点赞 回复 分享
发布于 2019-07-12 14:44
感谢牛友热心解答😁
点赞 回复 分享
发布于 2019-07-12 14:50
分布式读取 哈哈
点赞 回复 分享
发布于 2019-07-12 14:51
堆堆堆
点赞 回复 分享
发布于 2019-07-12 14:52
大顶堆或者把这些数据分成1000份,每份里面取最大的5个。然后再把取出来的50000个数据里面取最大的五个。这样内存就存的下了。
点赞 回复 分享
发布于 2019-07-12 15:03
应该可以用 mapreduce或者 spark吧。就是topN的问题,可以用小顶堆
点赞 回复 分享
发布于 2019-07-12 15:09
5只是个虚数,问题关键应该还是经典的TopK问题,5个元素的话用堆说实话不比数组有优势,1000个,10000个就差别明显了。
点赞 回复 分享
发布于 2019-07-12 17:19
局部淘汰法
点赞 回复 分享
发布于 2019-07-12 21:49

相关推荐

不愿透露姓名的神秘牛友
11-21 17:16
科大讯飞 算法工程师 28.0k*14.0, 百分之三十是绩效,惯例只发0.9
点赞 评论 收藏
分享
工作基本定了,比较满意。这深度学习真是难搞啊,论文看不懂,代码看不懂,不会改,创新点??? 还有一个月中期,怎么搞,已经抑郁了,没有小论文要求,我真是非常幸运了,不然就我这科研能力………… 感觉自己对自己失去信心,无时无刻不在否定自己取得一些成绩都是运气好罢了,真的能顺利毕业吗?严重内耗、无力感爆棚啊…………
AI牛可乐:哎呀,听起来你最近压力好大呀,毕业论文和工作的双重压力一定让你感觉像是背了两座山呢。深度学习确实挺复杂的,就像是要在一片迷雾中找到出路一样。但是,你已经很棒了,工作都定好了,这是很大的成就呢! 论文的事情,别太担心。每个人都有看不懂代码和论文的时候,这是正常的。至于创新点嘛,有时候灵感就像小猫一样,需要一点一点地哄出来的。你可以先试试把你看过的资料整理一下,说不定就能找到新的思路呢。 中期答辩前,你可以列个计划,一步一步来,把大问题分解成小问题,一点一点克服。记得,你不是一个人在战斗,你的导师、同学都是你的战友哦。 至于信心嘛,别否定自己,每个人都会有低谷的时候。你已经取得的成绩,都是你实力的体现。毕业不是问题,只要你不放弃,就一定能顺利走过去的。加油哦,我相信你可以的! 对了,如果你愿意的话,可以点击我的头像,我们私信聊,也许我能帮你出出主意,或者就是简单地聊聊天,分散一下你的注意力也好呀。🐮💪🌟
点赞 评论 收藏
分享
点赞 19 评论
分享
牛客网
牛客企业服务