关注
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:指不定长或无固定格式的数据,如 互联网数据、邮件,word文档等。
对非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快,那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?这就是全文检索的基本思路,也就是将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引 。
非结构化数据又一种叫法叫全文数据。
按照数据的分类,搜索也分为两种:
1. 对结构化数据的搜索: 如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。
2. 对非结构化数据的搜索: 如用Google和百度可以搜索大量内容数据。
对非结构化数据也即全文数据的搜索主要有两种方法:顺序扫描法和反向索引法。
1. 顺序扫描法:所谓顺序扫描法,就是顺序扫描每个文档内容,看看是否有要搜索的关键字,实现查找文档的功能,也就是根据文档找词。
2. 反向索引法:所谓反向索引,就是提前将搜索的关键字建成索引,然后再根据索引查找文档,也就是根据词找文档。
这种先建立索引,再对索引进行搜索文档的过程就叫全文检索(Full-text Search) 。
全文检索的流程分为两大流程:索引创建、搜索索引
索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
查看原帖
2 评论
相关推荐
我已成为0offer的糕手:他家面试风格差异真大,50min可还行,我两面加起来都没你一面时间长
点赞 评论 收藏
分享
牛客热帖
正在热议
# 晒一晒我的offer #
9551624次浏览 104014人参与
# 00后45度躺现状 #
9148次浏览 147人参与
# 签约/解约注意事项 #
308822次浏览 1915人参与
# 那些拿到大厂offer的简历长啥样 #
109761次浏览 2083人参与
# AI了,我在打一种很新的工 #
19639次浏览 433人参与
# 简历被挂麻了,求建议 #
2431410次浏览 32721人参与
# 如何拒绝/反向PUA #
47417次浏览 327人参与
# 数据人offer决赛圈怎么选 #
109449次浏览 1413人参与
# 你认为工作的意义是什么 #
57291次浏览 538人参与
# 我的实习求职记录 #
5959712次浏览 82849人参与
# 机械制造面试点评 #
33442次浏览 274人参与
# 人生第一个10万你是多久存到的? #
24608次浏览 266人参与
# 如果再来一次,你还会选择这个工作吗? #
54922次浏览 654人参与
# 打工人的工作餐日常 #
11664次浏览 127人参与
# 你/你领导的口头禅是什么? #
4018次浏览 37人参与
# 你的秋招第一场笔试是哪家 #
39277次浏览 538人参与
# 许愿池 #
204939次浏览 2496人参与
# 非技术er求职现状 #
21290次浏览 190人参与
# 非技术岗薪资爆料 #
172707次浏览 1505人参与
# 求职你最看重什么? #
13977次浏览 103人参与