牛客2192017号

2017-08-22 11:53 已编辑华中科技大学 Java

关注

讨论一个面试很常问的TOPK的问题

面试里面TopK是很常问的问题，通常解决方法都答先将大数据集分成多个小份，然后用hash表统计频率，再维护一个小顶堆统计得出TOPK个数据，最后将多个小份分的TOPK进行合并。

那么我有一个困惑，假设我们求top10个值，那么如果在每个小份数据集中，某一个词都排在第11个，如果合并每个小份数据集的TOP11的话，这个词是可以进入总的TOP10的，那么怎么解决这个问题呢？

还是我哪个步骤错了？

PS:很多人没听懂，我举个例子吧，假设有一本非常非常大的书，一共有10000册，你没办法用一台计算机去处理它，我们要求这本书出现最多的10个单词，那么按分治法，我们把1-100册放到机器1进行hash表统计词的频率，维护一个大小为10的小顶堆，我们用100台机器维护100个小顶堆，并在最后对这100个小顶堆进行排序，得出TOP 10的单词。。但是如果每一台机器的第十一个词都是kitty，那么很可能kitty也应该进入top10。那这样的情况应该怎么处理，是哪个步骤出了问题？是不是分词的时候不能直接按册分，要遍历这10000册，对每个单词进行hash？感觉不是太好啊。。求教

不知道我表达清楚没。。

全部评论

推荐最新楼层

浙江大学 C++

hash后这个词不就只在一个文件里了么。

点赞回复分享

发布于 2017-08-22 10:42

没offer只能回家种地

东南大学 Java

没听太懂小组内的第11名会是总排名的10名内吗？

点赞回复分享

发布于 2017-08-22 10:43

南京大学 Java

hash的结果要保证每个小文件中不包含相同的词

点赞回复分享

发布于 2017-08-22 10:46

向宇的语文老师

北京市海淀区职工大学 Java

统计频率的时候，相同key被映射到相同的桶，不存在你说的情况统计topK 最大值的时候，获取每个桶的topK就可获得全部数据的topK

点赞回复分享

发布于 2017-08-22 10:52

达达的猫咪

西安财经学院 C++

一个词只能出现在一个小份中，你应该是分小份有问题。相同的词肯定在一个小份中

点赞回复分享

发布于 2017-08-22 10:53

中共上海市委党校 C++

哪有你这样hash的，比如一个字符串str肯定在同一个文件里，不可能几个文件同时出现相同str

点赞回复分享

发布于 2017-08-22 11:35

04-02 16:28

莆田学院运营

京东招聘10000名实习生，月薪过万！

今天看到京东招聘1万名实习生，并且实习生月薪还能过万。这让我想起了之前一个机构的人找我谈合作，随后商务经理和我谈，一听到是付费的实习割韭菜，想要我的学生资源后，我就拒绝了。还发了条朋友圈吐槽一番。没想到，看到他们发的售卖实习岗位价格，真的越来越赤裸裸了。让我想说的，只有《让子弹飞》里面，师爷说的两个字：01. 有些人本来就有能力 从这张图片里可以看到，这里的买实习，是需要审核学历的。而我也可以猜到，不光要审核学历，还得审核之前的经验、专业背景等，因为要确保面试通过率。就算你花钱买，怎么着也得要口碑，万一面试过不了，或面试过了，去公司实习，是个废物咋搞？HR和求职机构，都倒霉了。是吧。所以你可以...

什么专业适合考公实习期间如何提升留用概率？

点赞评论收藏

分享

今天 08:25

已编辑

中国人民解放军国防信息学院前端工程师

腾讯云智西安前端开发TimeLine

一面：3.13二面：3.18三面：3.31HR面：4.3意向：4.8

腾讯开奖299人在聊

点赞评论收藏

分享

02-24 19:36

江西农业大学项目经理

应届生，没有方向，有点迷茫意向沿海地区

点赞评论收藏

分享

昨天 17:24

湖南大学运营

什么？快手前高管跳槽字节被罚94万？！

宝子们又来吃瓜了！快手前社交负责人王某因为跳槽疑似去了字节，结果被法院判赔94万！这简直是我见过最贵的“跳槽手续费”了……📌 事情是这样的：王某离职前签了竞业协议，约定6个月内不能去对手公司，快手每月给他3.9万补偿金。结果他被拍到多次出入字节办公楼！（啊这……是去送外卖吗？🍔）虽然王某拿出第三方公司合同辩解，但法院：“我不信🙃💸 最终结局：仲裁判赔70万→王某不服→法院加码到94万→二审维持原判！（好家伙，这违约金比北京首付还贵😱）

投递快手等公司7个岗位 >

点赞评论收藏

分享

评论

点赞

20

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 中美关税战对我们有哪些影响 #

7247次浏览 93人参与

# 工作经验重要还是工资重要？ #

10210次浏览 184人参与

# 美团求职进展汇总 #

1987732次浏览 18487人参与

# 校招求职有谈薪空间吗 #

118572次浏览 1589人参与

# 找工作如何保持松弛感？ #

8281次浏览 119人参与

# 多益网络求职进展汇总 #

8951次浏览 59人参与

# 如果没找到工作，考公是你的退路吗 #

18393次浏览 208人参与

# 新凯来求职进展汇总 #

16727次浏览 69人参与

# 美的集团工作体验 #

18358次浏览 56人参与

# 通信/硬件公司求职体验 #

101863次浏览 798人参与

# 关于春招你都做了哪些准备？ #

80441次浏览 536人参与

# 找工作有哪些冷知识 #

23057次浏览 272人参与

# 通信硬件2024笔试面试经验 #

189681次浏览 1778人参与

# 你上一次加班是什么时候？ #

43823次浏览 311人参与

# 文科生还参加今年的春招吗 #

8246次浏览 89人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

68961次浏览 592人参与

# 实习中的菜狗时刻 #

327891次浏览 3101人参与

# 水滴求职进展汇总 #

2886次浏览 21人参与

# 你最希望上岸的公司是？ #

114193次浏览 630人参与

# HR问：你期望的薪资是多少？如何回答 #

24362次浏览 457人参与

牛客网
牛客企业服务