牛客2192017号

2017-08-22 11:53 已编辑华中科技大学 Java

关注

讨论一个面试很常问的TOPK的问题

面试里面TopK是很常问的问题，通常解决方法都答先将大数据集分成多个小份，然后用hash表统计频率，再维护一个小顶堆统计得出TOPK个数据，最后将多个小份分的TOPK进行合并。

那么我有一个困惑，假设我们求top10个值，那么如果在每个小份数据集中，某一个词都排在第11个，如果合并每个小份数据集的TOP11的话，这个词是可以进入总的TOP10的，那么怎么解决这个问题呢？

还是我哪个步骤错了？

PS:很多人没听懂，我举个例子吧，假设有一本非常非常大的书，一共有10000册，你没办法用一台计算机去处理它，我们要求这本书出现最多的10个单词，那么按分治法，我们把1-100册放到机器1进行hash表统计词的频率，维护一个大小为10的小顶堆，我们用100台机器维护100个小顶堆，并在最后对这100个小顶堆进行排序，得出TOP 10的单词。。但是如果每一台机器的第十一个词都是kitty，那么很可能kitty也应该进入top10。那这样的情况应该怎么处理，是哪个步骤出了问题？是不是分词的时候不能直接按册分，要遍历这10000册，对每个单词进行hash？感觉不是太好啊。。求教

不知道我表达清楚没。。

全部评论

推荐最新楼层

没offer只能回家种地

东南大学 Java

没听太懂小组内的第11名会是总排名的10名内吗？

点赞回复分享

发布于 2017-08-22 10:43

浙江大学 C++

hash后这个词不就只在一个文件里了么。

点赞回复分享

发布于 2017-08-22 10:42

中共上海市委党校 C++

哪有你这样hash的，比如一个字符串str肯定在同一个文件里，不可能几个文件同时出现相同str

点赞回复分享

发布于 2017-08-22 11:35

达达的猫咪

西安财经学院 C++

一个词只能出现在一个小份中，你应该是分小份有问题。相同的词肯定在一个小份中

点赞回复分享

发布于 2017-08-22 10:53

向宇的语文老师

北京市海淀区职工大学 Java

统计频率的时候，相同key被映射到相同的桶，不存在你说的情况统计topK 最大值的时候，获取每个桶的topK就可获得全部数据的topK

点赞回复分享

发布于 2017-08-22 10:52

南京大学 Java

hash的结果要保证每个小文件中不包含相同的词

点赞回复分享

发布于 2017-08-22 10:46

03-29 22:25

门头沟学院 Java

作业帮后端一面凉经

📍面试公司：作业帮（北京）👜面试岗位：后端开发📖面试问题：1.大概什么情况下会有超卖的一种现象？（感觉回答不全，回去再看看）2.大概能够描述一下雪花的算法3.雪花算法时间回拨问题（有些时候，机器的时间会有回退的现象，你大概了解吗？我可能下一秒拿到的时间之后，其实比上一秒时间下一时刻。比上一个时刻的时间中还更小一些）（再巩固）4.乐观锁怎么使用的？5.聊一聊有序集合Zset，是什么数据结构，问我跳表怎么实现O（1）时间复杂度，我只知道O(logN)时间复杂度（回去好好看看）后面面试官说使用哈希表进行关联，可以实现6.你们使用消息队列，是一个项目难点，那么你你可以先描述一下你们遇到的问题，以...

作业帮一面58人在聊

查看13道真题和解析软件开发笔面经

点赞评论收藏

分享

03-19 18:21

已编辑

北京邮电大学 Java

作业帮后端暑期实习一面

面的部门是用C++，所以几乎没有java的八股1、redis主从模式哨兵模式有了解的吗2、为什么需要主从模式3、什么是一致性哈希4、CAP是什么5、TCP中Time wait和close wait是什么场景下才有的，以及当服务器如果这两种状态分别都长时间处于，会有什么坏处6、内核态和用户态都什么时候调用7、手撕：给了一串数字，比如55225112277，当连续数字大于2时，会消除。问题：请设计一个方法，在插入某个位置后，可以使得该字符串消除的最多。

查看7道真题和解析

点赞评论收藏

分享

03-27 18:29

已编辑

阿里云_基础平台研发_实习生(实习员工)

作业帮后端开发二面

🙌面试体验：60min，偏凉，感觉面试官应该是个leader级别，人狠话不多，答的不太好📖面试问题：对 io 多路复用的理解水平触发和边缘触发场景c++智能指针mysql慢查询排查内存泄漏排查，用到了什么工具（我说 asan），问原理不会死锁相关，写一个死锁相关的代码，怎么解决（不太记得 C++ 线程相关咋写了）设计模式（发现作业帮很喜欢考查，一面问过了还问）多线程题：懒汉模式的特殊单例模式，写一个类前 10 次请求都会创建一个类对象，之后每次请求随机返回之前创建的一个类对象（忘了双重检查锁怎么写了，忘了 static 怎么初始化，全程有点尴尬，最终还是写了个垃圾版本）。问未来规划反问，说...

查看8道真题和解析软件开发笔面经

点赞评论收藏

分享

03-29 21:26

苏州城市学院 Java

作业帮暑期一面后端面经

全程一小时左右，写了15分钟代码 ，第二天中午打电话约二面算法：- 快排找第K大的数- 判断是不是完全二叉树写完面试官说只写一个就行了八股文:上来先问的接不接受转语言,部门主要用golang1. 项目拷打,各种细节问题2. 数据库索引,数据库连接池怎么设置,(以为是线程池,说了N+1 2N,不过面试官也顺着说下去了,问N是什么) 后续提示应该根据请求来设置3. 数据库表怎么设计的,字段用什么类型,金额为什么用BigDecimal4. 数据库用户密码怎么存的,用的什么加密5. 索引,索引失效,隐式类型转换,最左匹配原则6. 登录注册的全部流程说一遍,jwt是什么7. 事务,哪里用到了事务8. 慢sql, 深分页怎么解决, 索引优化,覆盖索引 分表9. 数据库id怎么生成的, 主键自增,有没有了解过分布式id  雪花算法,时钟回退怎么解决10. redis单线程为什么快,工作原理是什么11. redis缓存三件套 如何解决12. 内核态转换, 为什么要有内核态转换  什么是系统中断, 软中断和硬中断(到这里人已经快麻了,八股文轰炸)13. 进程和线程的区别是什么  为什么要有线程，线程共享的资源有哪些,独享的资源有哪些 怎么向进程发送信号14. http 1.0 1.1的区别 长连接 time_wait过多是什么原因 可能有哪些危害15. 了解中间件吗 说了rabbitmq了解过 简单介绍一下反问环节:询问部门主要做什么 回答是基础架构,k8s容器中间件等等发面经积累好运气

作业帮二面27人在聊

查看18道真题和解析

点赞评论收藏

分享

04-07 10:50

已编辑

苏州城市学院 Java

作业帮后端二面

Update 官网显示暂不匹配，已凉半小时左右,1. 主要问项目,问到不会为止.2. 八股文: dns为什么用udp协议3. rpc为什么不用dns做注册中心算法题:- 爬楼梯- sqrt函数,不能调库，牛顿法给忘了，写了个暴力#牛客AI配图神器#  #我的OC时间线#  #作业帮求职进展汇总#

作业帮二面27人在聊

查看5道真题和解析我的OC时间线

点赞评论收藏

分享

评论

点赞

20

全站热榜

更多

拼多多信息确认

热聊中

创作者周榜

更多

正在热议

更多

# 实习进度记录 #

193578次浏览 2285人参与

# 机械人避雷的岗位/公司 #

10827次浏览 65人参与

# 平安产险科技中心求职汇总 #

245305次浏览 2614人参与

# 小红书取消大小周 #

11995次浏览 87人参与

# 工作经验重要还是工资重要？ #

121285次浏览 824人参与

# 产品人求职现状 #

196763次浏览 1811人参与

# 设计人如何选offer #

96806次浏览 676人参与

# 毕业论文怎么查AI率 #

10269次浏览 682人参与

# 顺丰求职进展汇总 #

47712次浏览 268人参与

# 选择和努力，哪个更重要？ #

72429次浏览 669人参与

# 我的求职精神状态 #

13412次浏览 287人参与

# 2023届毁约公司名单 #

184277次浏览 931人参与

# 一觉醒来，我成论文导师了… #

7193次浏览 158人参与

# 租房找室友 #

13403次浏览 95人参与

# 哪个瞬间让你对大厂祛魅了？ #

291693次浏览 2135人参与

# 正在实习的你，在做dirty work吗 #

110295次浏览 748人参与

# 拼多多工作体验 #

15969次浏览 149人参与

# 读研or工作，哪个性价比更高？ #

54933次浏览 668人参与

# TP-LINK工作体验 #

43978次浏览 812人参与

# 你小时候最想从事什么职业 #

85013次浏览 1606人参与

# 我在牛客求捞 #

43497次浏览 214人参与

牛客网
牛客企业服务