2021-11-08 20:45 江西师范大学 Java

关注

如何从大量数据中找出高频词？

题目描述

有一个 1GB 大小的文件，文件里每一行是一个词，每个词的大小不超过 16B，内存大小限制是 1MB，要求返回频数最高的 100 个词(Top 100)。

解答思路

由于内存限制，我们依然无法直接将大文件的所有词一次读到内存中。因此，同样可以采用分治策略，把一个大文件分解成多个小文件，保证每个文件的大小小于 1MB，进而直接将单个小文件读取到内存中进行处理。

更多技术文章、面试资料、工具教程，还请移步：http://www.javatiku.cn/

思路如下：

首先遍历大文件，对遍历到的每个词 x，执行 hash(x) % 5000 ，将结果为 i 的词存放到文件 ai 中。遍历结束后，我们可以得到 5000 个小文件。每个小文件的大小为 200KB 左右。如果有的小文件大小仍然超过 1MB，则采用同样的方式继续进行分解。

接着统计每个小文件中出现频数最高的 100 个词。最简单的方式是使用 HashMap 来实现。其中 key 为词，value 为该词出现的频率。具体方法是：对于遍历到的词 x，如果在 map 中不存在，则执行 map.put(x, 1) ；若存在，则执行 map.put(x, map.get(x)+1) ，将该词频数加 1。

上面我们统计了每个小文件单词出现的频数。接下来，我们可以通过维护一个小顶堆来找出所有词中出现频数最高的 100 个。具体方法是：依次遍历每个小文件，构建一个小顶堆，堆大小为 100。如果遍历到的词的出现次数大于堆顶词的出现次数，则用新词替换堆顶的词，然后重新调整为小顶堆，遍历结束后，小顶堆上的词就是出现频数最高的 100 个词。

更多技术文章、面试资料、工具教程，还请移步：http://www.javatiku.cn/

方法总结

分而治之，进行哈希取余；
使用 HashMap 统计频数；
求解最大的 TopN 个，用小顶堆；求解最小的 TopN 个，用大顶堆。

全部评论

推荐最新楼层

10-18 16:58

滴滴_高级研发工程师

急招滴滴社招核心部门

后端研发工程师-服务端技术 工作地点：北京|职位类别：技术 职位详情 职位描述 1、深入了解司乘两端全流程业务，了解并掌握后端整体的系统架构，参与出行中台的业务架构设计与优化工作。 2、负责交易主流程核心系统维护，支持快车、专车、优步、优享、豪华车、拼车、出租车等核心业务的研发。 3、负责对复杂业务进行抽象优化，搭建好业务平台，提供新业务/新功能快速孵化接入的能力。 任职要求 1、计算机或相关专业本科及以上学历，3年及以上工作经验； 2、熟悉并掌握常见语言中的一种或多种(Golang、PHP、Java)，从事过大型高并发架构设计者优先； 3、熟悉常用DB、缓存应用和优化； 4、对分布式服务架构...

投递滴滴等公司10个岗位 >

点赞评论收藏

分享

10-10 20:03

大连技师学院 Java

10.10 去哪儿笔试

1.k-bingo 给定k和一个【l，r】区间，找出区间内满足1.整除k 或 2.包含k的数，比如k=13，12134满足条件二2.字符串有两种操作，操作一将某一位置固定，操作二将流动位的字符都向右流转，用list记录固定位的index即可，当流转时只需将最后一位放到最前面，其余都不变，再把之前记录的固定位按照原本的index插入进去，再把list变为string输出即可3.一定时间内坐地铁的最小疲劳值，根据邻接矩阵建图并搜索

投递去哪儿等公司10个岗位

点赞评论收藏

分享

10-14 11:22

华东师范大学

叠纸游戏技术开放周来啦！

报名方式：叠纸游戏技术开放周

投递叠纸游戏等公司10个岗位 >

点赞评论收藏

分享

10-08 21:58

中北大学 Java

去哪儿九月2号笔试完，状态一直是笔试，是直接挂掉了吗，连个淘汰消息都不告诉吗😅😅

投递去哪儿等公司10个岗位

点赞评论收藏

分享

10-22 15:30

已编辑

阿里巴巴灵犀互娱_前端开发(准入职员工)

抖音秋招前端二面（魔鬼难度汗流浃背了）

#软件开发笔面经#10.22更新 已约三面------------------------------------------------------ 岗位: 前端开发工程师时间:10.18 66分钟超级难，应该是面过最难的一次，不愧是抖音记录几个印象很深的问题1.微信小程序的同构渲染2.同构渲染一些场景题，问多种解决思路3.jsbridge底层原理4.微信小程序怎么做到跨端5.react native原理6.mvvm，react怎么去实现mvvm7.面向对象思想，js  class原理，没有class怎么去实现面向对象三大特性8.react hooks原理，fiber原理9.为什么要hooks10.函数为什么要有状态11.什么是副作用，为什么要清除它12.iframe怎么解决unity3d嵌套到网页？13.js跟native通信的一种最简单的方式，发送的时候和拦截的时候分别说14.项目其实吟唱了10分钟很多基础问题我已经记不住了。然后是手撕环节，7分钟两道题手撕mid2分钟秒了，面试官“你做那么快，那还有时间欸”然后再出了一道easy反问环节，作为刚入行前端的校招生，怎么最有性价比地学习前端知识？这里面试官回答了5分钟，给了非常多建议。最后面试官让我记得更新简历，把实习项目写在简历上，因为三面偏向项目。嘿嘿，非常棒的一个小哥哥，遇到我不会的不是直接跳过，而是说“没关系，我们发散一下，我相信你一定能想得到”面试完收到了灵犀互娱hr面的邮件幸福来的太突然引流:字节跳动 阿里巴巴 腾讯 美团 百度 快手 京东 拼多多 小红书 B站 网易 携程 腾讯音乐

陪人钓鱼的小蚯蚓很快乐：校友，我也是正德职业的

软件开发笔面经

点赞评论收藏

分享

点赞 4 评论

招聘动态

字节跳动

2025校园招聘

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

全站热榜

正在热议

# 25届秋招总结 #

356519次浏览 3479人参与

# 我的实习求职记录 #

6089849次浏览 83713人参与

# 北方华创开奖 #

50389次浏览 451人参与

# 地方国企笔面经互助 #

5329次浏览 13人参与

# 职场吐槽大会 #

90959次浏览 752人参与

# 选完offer后，你后悔学本专业吗 #

23125次浏览 165人参与

# 阿里云管培生offer #

42617次浏览 966人参与

# ai智能作图 #

4320次浏览 79人参与

# 运营商笔面经互助 #

92953次浏览 1336人参与

# 实习中的菜狗时刻 #

279044次浏览 2741人参与

# 腾讯求职进展汇总 #

201031次浏览 1668人参与

# 如果有时光机，你最想去到哪个年纪？ #

25200次浏览 524人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

37960次浏览 345人参与

# 风评不好的公司，你会去吗？ #

20780次浏览 94人参与

# 上班苦还是上学苦呢？ #

91770次浏览 798人参与

# 大疆求职进展汇总 #

413990次浏览 2935人参与

# 国企还是互联网，你怎么选？ #

90251次浏览 704人参与

# 硬件兄弟们甩出你的华为奖状 #

73992次浏览 609人参与

# 远程面试的尴尬瞬间 #

20629次浏览 296人参与

# 软件开发2024笔面经 #

2326529次浏览 48227人参与

# 如果中了500万，你会离职吗？ #

13813次浏览 145人参与

# 如何一边实习一边秋招 #

1000546次浏览 12701人参与

牛客网
牛客企业服务