首页 > 试题广场 >

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过

[问答题]
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词
如果一个词的出现次数超过了1MB大小,比如某个词出现了2^17次,总次数乘以单词大小2^4为2MB,那这个词再怎么hash取余也会放到同一个文件里分不开,这种情况怎么办
发表于 2022-03-08 17:56:13 回复(0)
先用hash进行分文件,每个文件不超过1M,对每个文件进行wordcount,最后再对结果文件进行汇总,得到词频最高的top100
发表于 2021-01-14 10:06:14 回复(0)