关注
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:指不定长或无固定格式的数据,如 互联网数据、邮件,word文档等。
对非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快,那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?这就是全文检索的基本思路,也就是将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引 。
非结构化数据又一种叫法叫全文数据。
按照数据的分类,搜索也分为两种:
1. 对结构化数据的搜索: 如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。
2. 对非结构化数据的搜索: 如用Google和百度可以搜索大量内容数据。
对非结构化数据也即全文数据的搜索主要有两种方法:顺序扫描法和反向索引法。
1. 顺序扫描法:所谓顺序扫描法,就是顺序扫描每个文档内容,看看是否有要搜索的关键字,实现查找文档的功能,也就是根据文档找词。
2. 反向索引法:所谓反向索引,就是提前将搜索的关键字建成索引,然后再根据索引查找文档,也就是根据词找文档。
这种先建立索引,再对索引进行搜索文档的过程就叫全文检索(Full-text Search) 。
全文检索的流程分为两大流程:索引创建、搜索索引
索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
查看原帖
2 评论
相关推荐
牛客吹哨人:哨哥晚点统一更新到黑名单:不要重蹈覆辙!25届毁意向毁约裁员黑名单https://www.nowcoder.com/discuss/1317104
点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 我的2024牛客高光时刻 #
99059次浏览 1551人参与
# 机械人,你的秋招第一份简历被谁挂了 #
119741次浏览 1873人参与
# 客路2025全球产研实习生招聘 #
72517次浏览 259人参与
# 被同事甩锅了怎么办 #
15837次浏览 90人参与
# 你的秋招第一场笔试是哪家 #
50087次浏览 587人参与
# 如果校招重来我最想改变的是 #
200778次浏览 2455人参与
# 研究所VS国企,该如何选 #
147518次浏览 1576人参与
# AI了,我在打一种很新的工 #
34942次浏览 763人参与
# 以前保安读大学现在毕业做保安 #
3615次浏览 22人参与
# 求职你最看重什么? #
35508次浏览 201人参与
# 面试时被问的最奇葩的问题 #
9477次浏览 71人参与
# 你今年的保底offer是哪家 #
28713次浏览 233人参与
# 虾皮求职进展汇总 #
186027次浏览 1220人参与
# 面试中,你被问过哪些奇葩问题? #
52915次浏览 631人参与
# 应届生初入职场,求建议 #
152838次浏览 2276人参与
# 打工人的桌面壁纸都是啥样的? #
18662次浏览 214人参与
# 秋招你被哪家公司挂了? #
413889次浏览 3704人参与
# 高薪高压or稳定躺平,你会怎么选 #
28065次浏览 203人参与
# 生物制药/化工公司岗位评价 #
12062次浏览 66人参与
# 比亚迪春招开了,你投递了吗? #
33145次浏览 129人参与
# 制造业的秋招小结 #
69499次浏览 1424人参与