项目研究技术专家

2019-10-22 11:55 已编辑华为_2012实验室_Java工程师

关注

Elasticsearch 实战(一) - 简介

官腔
Elasticsearch，分布式，高性能，高可用，可伸缩的搜索和分析系统

基本等于没说,咱们慢慢看

1 概述

百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）
百度 != 搜索，这是不对的

垂直搜索（站内搜索）

互联网的搜索：电商网站，招聘网站，新闻网站，各种app
IT系统的搜索：OA软件，办公自动化软件，会议管理，日程管理，项目管理，员工管理，搜索“张三”，“张三儿”，“张小三”；有个电商网站，卖家，后台管理系统，搜索“牙膏”，订单，“牙膏相关的订单”

搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息

2 数据库搜索

数据都是存储在数据库里面的
很自然的，如果从技术的角度去考虑，如何实现搜索，电商网站内部的搜索功能的话，就可以考虑，去使用数据库去进行搜索。

2.1 案例 - 电商系统的搜索

搜索含有牙膏的商品
在数据库中商品名称字段中存储有关键字

数据库来处理的话，不考虑数据库的全文索引什么的，假如商品有 1000万个，那么基本上就要查找 1000 万次，且每次都需要加载商品的名称字段的整段字符串，并挨个寻找。

每条记录的指定字段的文本，可能会很长
比如“商品描述”字段的长度，有长达数千个，甚至数万个字符，这个时候，每次都要对每条记录的所有文本进行扫描，懒判断说，你包不包含我指定的这个关键词（比如说“牙膏”）
无法将搜索词拆分开来
尽可能去搜索更多的符合你的期望的结果，比如输入“生化机”，就搜索不出来“生化危机”

用数据库来实现搜索，是不太靠谱的。通常来说，性能会很差的。

3 全文检索 & Lucene

3.1 全文检索

3.1.1 场景：搜索“生化机”

全文检索

（有可能是手抖打错了，本来是生化危机），但是期望需要出来右侧的 4条记录

有 4条数据
将每条数据进行词条拆分。如“生化危机电影”拆成：生化、危机、电影关键词（拆分结果与策略算法有关）
每个关键词将对应包含此关键词的数据 ID
搜索的时候，直接匹配这些关键词，就能拿到包含关键词的数据
这个过程就叫做全文检索。而词条拆分和词条对应的 ID 这个就是倒排索引的的基本原理

对比数据库的缺陷

数据库里的数据，共有100万条,按照之前的思路,其实就要扫描100万次，而且每次扫描,都需要匹配那个文本所有的字符，确认是否包含搜索的关键词，而且还不能将搜索词拆解开来进行检索

利用倒排索引

进行搜索的话，假设100万条数据,拆分出来的词语,假设有1000万个词语，那么在倒排索引中,就有1000万行,我们可能并不需要搜索1000万次。
很可能说,在搜索到第一次的时候,我们就可以找到这个搜索词对应的数据。
也可能是第100次,或者第1000次

3.2 lucene

就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包括各种算法

java开发的时候，引入lucene jar，然后基于lucene的API进行去进行开发就可以了
用lucene，我们就可以去将已有的数据建立索引，lucene会在本地磁盘上面，给我们组织索引的数据结构
另外的话，我们也可以用lucene提供的一些功能和API来针对磁盘上额

4 Elasticsearch的意义

我们可以使用 lucene 开发搜索服务，部署在一台机器上面，但是无法解决当数据量增大的时候出现的问题（图上右侧）。
那么 elasticsearch 就是解决这种场景的工具；

自动维护数据的分布到多个节点的索引建立、检索请求分布到多个节点的执行
自动维护数据的冗余副本，保证一些机器宕机了，不会丢失任何数据
封装了更多的高级功能
给我们提供更多高级的支持，让我们快速的开发应用，开发更加复杂的应用
复杂的搜索功能，聚合分析的功能，基于地理位置的搜多（距离我当前位置 1公里以内的烤肉店）
参考
搜索引擎
[Elasticsearch顶尖高手系列]

#百度##技术栈#

全部评论

推荐最新楼层

03-30 11:13

太原科技大学 Unity3D客户端

疯狂游戏 U3D实习生笔试

仅仅两道算法题1.数字k，另外k*2+1和k*3+1也在容器中，问k已知，m会不会在容器中。（这题需优化无效重复的检查，否则不能100%通过）2.图像翻转问题，要求2,[1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4]翻转成[2,2,2,2,1,1,1,1,4,4,4,4,3,3,3,3]

查看2道真题和解析

投递疯狂游戏等公司6个岗位 >

点赞评论收藏

分享

不愿透露姓名的神秘牛友

03-27 17:55

上班期间禁止外出、不能午休、不能用手机……上班还是坐牢啊？？

近日，某企业被曝要求员工“不能午休”“上班期间禁止外出”“禁止玩手机”等条款。有网友在社交平台发布视频称，其应聘的某公司中午没有午休，吃饭不能离开公司，并曝光了一份《公司办公规范》，文件显示，“上班期间禁止外出，特殊情况由部门主管同意后报备人事。”网友纷纷表示：上班就像坐牢。。。。。。这是哪家公司，大家猜到了吗？

点赞评论收藏

分享

03-29 16:00

门头沟学院 Java

真的崩溃了

为什么呀，为什么别人都有面试，而我没有，我看别人投字节，投腾讯都会有人理，我也投了，一直卡在测评，投了一个月了只有一个美团面试，真的要崩溃了，求佬给点建议啊

超人强爱超人：奖项，四六级什么总得写吧

投递美团等公司6个岗位

点赞评论收藏

分享

03-17 19:26

京东零售_推荐研发_后端开发

逆天滴滴hr，是不是都不爱理人？

一个是这样也就算了，第二个还是这样

haru832：说不定是hr被踢了

点赞评论收藏

分享

03-27 16:01

成都大学数据分析师

25应届想找测试的工作，这个简历怎么改

求佬救救孩子！！！

点赞评论收藏

分享

评论

1

13

招聘动态

米哈游

2025春季校园招聘

阿里大文娱

25届补录&26届实习

26届实习生双选会报名开启

满帮集团

2025春季校园招聘

联想

25届校招+26届实习

京东JDY实习生计划

火热招聘中

理想汽车

2025春季校园招聘

26届实习求职交流群

快手

25校招&26实习进行中

贝壳找房

2026届实习生招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

2306596次浏览 27015人参与

# 扒一扒那些奇葩实习经历 #

17578次浏览 557人参与

# 招行数字金融训练营 #

193377次浏览 582人参与

# 牛友故事会 #

469206次浏览 11147人参与

# 面试时被问的最奇葩的问题 #

17459次浏览 98人参与

# 大家实习每天都在干啥 #

76554次浏览 490人参与

# 腾讯云智研发2025实习生招聘 #

141339次浏览 1546人参与

# 实习期间如何提升留用概率？ #

8841次浏览 162人参与

# 应届生简历当中，HR最关注哪些？ #

15121次浏览 161人参与

# 机械人，说说你的烦心事 #

57448次浏览 785人参与

# 毕业季，你想好怎么跟生活对线了吗？ #

183809次浏览 3422人参与

# Offer比较，你最看重什么？ #

139115次浏览 881人参与

# 机械人避雷的岗位/公司 #

8690次浏览 49人参与

# 牛友投递互助，不漏校招机会 #

259900次浏览 3527人参与

# 京东工作体验 #

11421次浏览 82人参与

# 实习必须要去大厂吗？ #

81833次浏览 1226人参与

# 寒假躺平还是提前实习 #

168262次浏览 1239人参与

# 虾皮求职进展汇总 #

209251次浏览 1452人参与

# 硬件人你反向读研了吗 #

36853次浏览 593人参与

# 硬件人，你被哪些公司给挂了 #

43671次浏览 684人参与

# 什么专业适合考公 #

24627次浏览 181人参与

# 实习学不到东西怎么办？ #

186985次浏览 1995人参与

牛客网
牛客企业服务