关注
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:指不定长或无固定格式的数据,如 互联网数据、邮件,word文档等。
对非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快,那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?这就是全文检索的基本思路,也就是将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引 。
非结构化数据又一种叫法叫全文数据。
按照数据的分类,搜索也分为两种:
1. 对结构化数据的搜索: 如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。
2. 对非结构化数据的搜索: 如用Google和百度可以搜索大量内容数据。
对非结构化数据也即全文数据的搜索主要有两种方法:顺序扫描法和反向索引法。
1. 顺序扫描法:所谓顺序扫描法,就是顺序扫描每个文档内容,看看是否有要搜索的关键字,实现查找文档的功能,也就是根据文档找词。
2. 反向索引法:所谓反向索引,就是提前将搜索的关键字建成索引,然后再根据索引查找文档,也就是根据词找文档。
这种先建立索引,再对索引进行搜索文档的过程就叫全文检索(Full-text Search) 。
全文检索的流程分为两大流程:索引创建、搜索索引
索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
查看原帖
2 评论
相关推荐
凫云:🐮,最后这一句好好笑😂😂
点赞 评论 收藏
分享
09-03 15:56
门头沟学院 前端工程师 OfferNotFoundException:怎么变成牛客笔试了,前一个月的在showbug笔试给服务器压崩了怕丢人了
投递挚文集团等公司10个岗位
点赞 评论 收藏
分享
投递得物app等公司10个岗位 >
点赞 评论 收藏
分享
牛客热帖
正在热议
# 银行笔面经互助 #
3585次浏览 72人参与
# 运营商笔面经互助 #
3563次浏览 76人参与
# 快手校招 #
56681次浏览 1313人参与
# 国央企求职进展汇总 #
13043次浏览 63人参与
# 汇川技术求职进展汇总 #
48049次浏览 419人参与
# 比亚迪求职进展汇总 #
357322次浏览 2008人参与
# 建信金科校招 #
19002次浏览 247人参与
# 滴滴求职进展汇总 #
12405次浏览 152人参与
# 毕业季,你想好怎么跟生活对线了吗? #
111957次浏览 2566人参与
# 硬件人的简历怎么写 #
187025次浏览 2461人参与
# 机械人值得去的车企 #
8412次浏览 32人参与
# 大厂还是考编 #
63167次浏览 1220人参与
# 通信硬件投递记录 #
281239次浏览 6429人参与
# 如何KTV领导 #
13472次浏览 110人参与
# 选完offer后,你后悔学机械吗? #
7222次浏览 44人参与
# 双非本科求职如何逆袭 #
409924次浏览 5195人参与
# 浅聊一下我实习的辛苦费 #
160258次浏览 1455人参与
# 想实习转正,又想准备秋招,我该怎么办 #
390206次浏览 4140人参与
# 2023毕业生求职有问必答 #
100157次浏览 1224人参与
# 无实习如何秋招上岸 #
560166次浏览 7077人参与
# 谈薪时HR压价该怎么应对 #
85453次浏览 1018人参与
# OPPO求职进展汇总 #
461387次浏览 4097人参与