倒排索引压缩算法

倒排索引——词典+倒排链表

在拥有大规模索引数据的搜索引擎中,倒排索引被证明是一种非常高效地数据结构
事实上,可以简单的理解为

词典

由大量的词项组成,主要用来记录整个文档集合中出现过的此项和对应的倒排链表指针。

倒排链表

记录了该此项在不同文档中的命中信息、位置信息或者与计算分数等信息。

在实际应用中,词典文件比起倒排文件来说相对较小。所以一般研究倒排链表压缩算法。每个从磁盘读取的数据块包含一定数量的倒排链表数据段。每个数据段作为压缩算法处理的基本单位,包含着一串被压缩的整数序列。每个数据段包含一组docid和对应的一组freq

全部评论

相关推荐

11-27 17:08
已编辑
牛客_产品运营部_私域运营
腾讯 普通offer 24k~26k * 15,年包在36w~39w左右。
点赞 评论 收藏
分享
11-01 08:48
门头沟学院 C++
伤心的候选人在吵架:佬你不要的,能不能拿户口本证明过户给我。。球球了
点赞 评论 收藏
分享
评论
4
收藏
分享
牛客网
牛客企业服务