2021-11-08 20:48 江西师范大学 Java

关注

如何查询最热门的查询串？

题目描述

搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来，每个查询串的长度不超过 255 字节。

假设目前有 1000w 个记录（这些查询串的重复度比较高，虽然总数是 1000w，但如果除去重复后，则不超过 300w 个）。请统计最热门的 10 个查询串，要求使用的内存不能超过 1G。（一个查询串的重复度越高，说明查询它的用户越多，也就越热门。）

解答思路

每个查询串最长为 255B，1000w 个串需要占用约 2.55G 内存，因此，我们无法将所有字符串全部读入到内存中处理。

更多技术文章、面试资料、工具教程，还请移步：http://www.javatiku.cn/

方法一：分治法

分治法依然是一个非常实用的方法。

划分为多个小文件，保证单个小文件中的字符串能被直接加载到内存中处理，然后求出每个文件中出现次数最多的 10 个字符串；最后通过一个小顶堆统计出所有文件中出现最多的 10 个字符串。

方法可行，但不是最好，下面介绍其他方法。

方法二：HashMap 法

虽然字符串总数比较多，但去重后不超过 300w，因此，可以考虑把所有字符串及出现次数保存在一个 HashMap 中，所占用的空间为 300w*(255+4)≈777M（其中，4 表示整数占用的 4 个字节）。由此可见，1G 的内存空间完全够用。

思路如下：

首先，遍历字符串，若不在 map 中，直接存入 map，value 记为 1；若在 map 中，则把对应的 value 加 1，这一步时间复杂度 O(N) 。

接着遍历 map，构建一个 10 个元素的小顶堆，若遍历到的字符串的出现次数大于堆顶字符串的出现次数，则进行替换，并将堆调整为小顶堆。

遍历结束后，堆中 10 个字符串就是出现次数最多的字符串。这一步时间复杂度 O(Nlog10) 。

更多技术文章、面试资料、工具教程，还请移步：http://www.javatiku.cn/

方法三：前缀树法

方法二使用了 HashMap 来统计次数，当这些字符串有大量相同前缀时，可以考虑使用前缀树来统计字符串出现的次数，树的结点保存字符串出现次数，0 表示没有出现。

思路如下：

在遍历字符串时，在前缀树中查找，如果找到，则把结点中保存的字符串次数加 1，否则为这个字符串构建新结点，构建完成后把叶子结点中字符串的出现次数置为 1。

最后依然使用小顶堆来对字符串的出现次数进行排序。

方法总结

前缀树经常被用来统计字符串的出现次数。它的另外一个大的用途是字符串查找，判断是否有重复的字符串等。

#算法#

全部评论

推荐最新楼层

11-22 00:12

华南理工大学 Java

秋招至今，我依然是0个offer

早期还有情绪波动，现在已经变成了对被挂的麻木，感觉秋招让很疲惫。谁要是发个offer，我立马就能签三方！要是再不行，春招就得继续拼了，春招不成，我就只能考虑卖淀粉肠了。。。

宝贝吃冰啦：华工✌的0offer是0满意offer吧

牛客创作赏金赛

点赞评论收藏

11-25 10:35

莆田学院产品经理

第一次实习

回想第一次实习，人家说九点半报道，我八点半就到了，后来了解到人家一般10点才上班，觉得自己有点打扰了哈哈哈一起报道的是一个很酷的小姐姐 然后后面才知道不是一个部门的甚至不在一个楼层 但是我甚至想好中午要和她去吃啥了哈哈哈

牛客创作赏金赛

点赞评论收藏

11-21 04:35

电子科技大学 Java

还没约面问最低薪资😅

逆天公司，这种正常吗😅

努力学习的小绵羊：我反倒觉得这种挺好的，给不到我想要的就别浪费大家时间了

点赞评论收藏

10-05 11:11

海南大学 Java

投票

说是先实习，有机会转正。可信吗？能转正吗？

理想江南137：感觉挺真诚的感觉可以试一试

点赞评论收藏

11-21 04:39

南昌大学 Java

26届求助：老生常谈了，考研还是就业

26届211本，目前在准备就业，大一大二啥都没学，这学期大三开学才开始学，学的很差，但是通过学校找到了一家中厂下学期开学的实习（难度比普通自己找低很多）。刚开始没想过考研，不想读研卷学历，后来开始考虑，担心吃学历的亏。核心问题就是：我这种情况，工作三年和读研比哪个以后发展更好，或者差不多。看牛客上还是大部分是研究生能拿到很好的offer，但社招应该也不看牛客，不知道到底是什么情况，求求过来人帮帮我吧

scoxty：我大三上才开始系统学习的

开发本科够了，早准备早投递

投递牛客等公司10个岗位 > 如果能重来，就业or读研你选哪个？你会选择考研还是直接就业

点赞评论收藏

点赞收藏评论

招聘动态

字节跳动

2025校园招聘

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

全站热榜

正在热议

# 选完offer后，你后悔学本专业吗 #

# 如果有时光机，你最想去到哪个年纪？ #

25200次浏览 524人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #