ES两个作用: 1、组成成为ELK,用来收集和处理日志,nginx、apache、message、secrue、mysql的日志; 2、ES单独使用,用来做搜索引擎,特别是数据量比较大的,不用直接查库的,电商网站的搜索,Solr也可以
定义:Elasticsearch 是一个实时的分布式存储、搜索、分析的引擎。 五个关键字:实时、分布式、存储、搜索、分析 问题1:Elasticsearch是如何做到实时的, 问题2:Elasticsearch的架构分布式的。 问题3:Elasticsearch是怎么存储、搜索和分析的
为什么要使用Elasticsearch?mysql数据库也能做到 实时(高可用,实施读写)、存储(存储数据)、搜索(like查找)、分析(对数据分析,具体分析因人而异)
ES的优势在于高效的模糊查询(注意两个字:高效、模糊查询),mysql也可以使用like关键字和% 模糊查询,但是,这种方式有三个缺陷: 第一,效率低:like + % 这类的查询是不走索引的,不走索引意味着:只要你的数据库的量很大(1亿条),你的查询肯定会是秒级别的; 第二,无法控制数据量,返回大量数据:使用 like + % 即便给你从数据库根据模糊匹配查出相应的记录了,那往往会返回大量的数据给你,往往你需要的数据量并没有这么多,可能50条记录就足够了; 第三,无法错别字搜索:用户输入的内容往往并没有这么的精确,比如我从Google输入ElastcSeach(打错字),但是Google还是能估算我想输入的是Elasticsearch。
Elasticsearch是专门做搜索的,可以解决mysql搜索的三个问题: 第一,高效率:Elasticsearch对模糊搜索非常擅长 第二,查询结果排序:从Elasticsearch搜索到的数据可以根据评分过滤掉大部分的,只要返回评分高的给用户就好了 第三,模糊查询:没有那么准确的关键字也能搜出相关的结果
问题:为什么Elasticsearch为什么可以实现快速的“模糊匹配”或者快速的“相关性查询”? 标准答案:ES分词器 + 倒排索引,解释:ES分词器就是写入数据到Elasticsearch的时候会进行分词,倒排索引就是拿着分词这种不完全条件(对应0-n个位置)去找位置,然后找记录 正向索引定义:根据“完整的条件”查找一条记录叫做正向索引; 函数表示:即给定x仅对于唯一一个确定y值; 实际:如一本书的章节目录就是正向索引,通过目录找到唯一确定的页码。 倒排索引定义:根据某个词(不完整的条件)再查找对应记录,叫做倒排索引; 函数表示:即给定的y值有0-n个对应的x值,ES就是根据倒排索引查找的; 实际:如随便打开一个书上的一页,ES会记录各个词语和各个词语对应的位置,ES根据各个词为它找他对应的目录,比如算法 ->2,13,42,56,解释:“算法”这个词肯定是在第二页、第十三页、第四十二页、第五十六页出现过。 ES 使用分词器+倒排索引
问题:ES如何实现人类语言的分词(中文、英文、俄罗斯文等)? 标准答案:这个问题问的不清楚,一定要注意,ES不完成分词功能,ES是一个索引库,是一个搜索引擎,存储分词和分词位置,不实现对文本分词,ES通过内置分词器,分词的功能交给分词器去完成,常用的分词器有: Standard Analyzer :按词切分,将词小写 Simple Analyzer:按非字母过滤(符号被过滤掉),将词小写 WhitespaceAnalyzer:按照空格切分,不转小写
ps:Elasticsearch是老外写的,内置的分词器都是英文类的,而我们用户搜索的时候往往搜的是中文,现在中文分词器用得最多的就是IK分词器。
至于分词器内部是如何使用算法实现对人类语言的文本分词的,这个不谈论。 需要知道的是,搜索引擎仅仅是索引库,进存储分词和分词位置,不是具体做分词的,分词器才是,ES和Solr都是这样。
Elasticsearch分词器主要由三部分组成: Character Filters(文本过滤器,去除HTML) Tokenizer(切分规则,如:按词切分、按非字母过滤、按空格切分) TokenFilter(将切分后的词进行处理,如转成小写 or 不转为小写)
Elasticsearch的数据结构 不同的数据结构所花的时间往往不一样,你想要查找的时候要快,就需要有底层的数据结构支持: 第一,链表的查找时间复杂度一般是O(n) 第二,接上面,树型的查找时间复杂度一般是O(logn),比链表好些 第三,接上面,哈希表的查找时间复杂度一般是O(1),比树好些 至于Elasticsearch的模糊查询速度很快,Elasticsearch底层数据结构为:Term Index、Term Dictionary、PostingList
Elasticsearch数据结构(Term Index、Term Dictionary、PostingList) 如图: 解释上图中三个概念(Term Index、Term Dictionary、PostingList) Term Dictionary定义:存放分词,我们输入一段文字,Elasticsearch会根据分词器对我们的那段文字进行分词(也就是图上所看到的Ada/Allen/Sara…),这些分词汇总起来我们叫做Term Dictionary,在Term Dictionary中的词由于是非常非常多的,所以我们会为其进行排序,等要查找的时候就可以通过二分来查,不需要遍历整个Term Dictionary PostingList定义:存放分词位置,而我们需要通过分词找到对应的记录,这些文档ID保存在PostingList Term Index定义:存放分词前缀,放在内存中,由于Term Dictionary的词实在太多了,不可能把Term Dictionary所有的词都放在内存中,于是Elasticsearch还抽了一层叫做Term Index,这层只存储 部分 词的前缀,Term Index会存在内存中(检索会特别快)
Term Index的优化:使用FST的存储形式 Term Index在内存中是以FST(Finite State Transducers)的形式保存的,其特点是非常节省内存。FST有两个优点: 1)空间占用小。通过对词典中单词前缀和后缀的重复利用,压缩了存储空间; 2)查询速度快。O(len(str))的查询时间复杂度。
Term Index的优化(三个) 第一,Term Index是存储在内存中的; 第二,Term Index使用FST(Finite State Transducers)的形式保存(节省内存空间)。 第三,Term Dictionary也是为Term Index进行排序(查找的时候方便 O(len(str)))
金手指:对于Term Index,为了保证足够快,Term Index存储在内存中,既然存放在内存中,就好缩小占用空间大小,所以,对于Term Index的优化主要是,使用FST存储形式,通过对词典中单词前缀和后缀的重复利用,压缩了存储空间,第二个优化就是使用FST存储形式,O(len(str))的查询时间复杂度
金手指:Term Dictionary的优化主要体现在查找性能上,就是使用二分查找。
PostingList的优化:使用FOR编码技术对里面的数据压缩 + 使用Roaring Bitmaps来对文档ID进行交并集操作 使用FOR编码技术对里面的数据压缩 PostingList会使用Frame Of Reference(FOR)编码技术对里边的数据进行压缩,节约磁盘空间。 对于上图的解释: PostingList使用Roaring Bitmaps来对文档ID进行交并集操作 PostingList里边存的是文档ID,我们查的时候往往需要对这些文档ID做交集和并集的操作(比如在多条件查询时),PostingList使用Roaring Bitmaps来对文档ID进行交并集操作,使用Roaring Bitmaps的好处就是可以节省空间和快速得出交并集的结果。 对于上图的解释: Step1:每个数字除去65536,记录结果,每个数字对65536取模,记录结果 1000 变为 (0,1000) 表示1000这个数字除以65536结果为0,取模结果为1000 62101 变为 (0,62101) 表示62101这个数字除以65526结果为0,取模结果为65536, 以此类推,经过Step1,6个数字变为6个(key,value)键值对,并没有节约存储大小,且看Step2 Step2:对于上面6个键值对,根据 除以65536结果 的结果拆分,所以, 1000 和 62101 为一组,它们除以65526结果为0,存储取模65536,所以,存储1000 和 62101 131385、132052、191173 为一组,它们除以65526结果为2,存储取模65536,所以,存储313 980 60101 196658 为一组,它们除以65526结果为3,存储取模65536,所以,存储50 从存储结果来看,存储变小了 Step3:用尽可能小的数据类型存储下来
金手指:Posting List是用来存放Term Dictionary的位置,优化包括两个: 第一,既然是存放Term Dictionary位置,就要知道,怎样使占用的空间尽量小,使用FOR编码技术对里面的数据压缩; 第二,既然是存放Term Dictionary位置,就要能够快速返回ID范围,PostingList使用Roaring Bitmaps来对文档ID进行交并集操作
ES索引库为什么查找快?就是ES数据结构决定的,对应于ES的数据结构,都有优化方式 Term Index的优化 + Term Dictionary的优化 + PostingList的优化
金手指:对于Term Index,为了保证足够快,Term Index存储在内存中,既然存放在内存中,就好缩小占用空间大小,所以,对于Term Index的优化主要是,使用FST存储形式,通过对词典中单词前缀和后缀的重复利用,压缩了存储空间,第二个优化就是使用FST存储形式,O(len(str))的查询时间复杂度
金手指:Term Dictionary的优化主要体现在查找性能上,就是使用二分查找。
金手指:Posting List是用来存放Term Dictionary的位置,优化包括两个: 第一,既然是存放Term Dictionary位置,就要知道,怎样使占用的空间尽量小,使用FOR编码技术对里面的数据压缩; 第二,既然是存放Term Dictionary位置,就要能够快速返回ID范围,PostingList使用Roaring Bitmaps来对文档ID进行交并集操作
Elasticsearch中的概念 第一,Index:Elasticsearch的Index相当于数据库的Table Type:这个在新的Elasticsearch版本已经废除(在以前的Elasticsearch版本,一个Index下支持多个Type–有点类似于消息队列一个topic下多个group的概念) 第二,Document:Document相当于数据库的一行记录 第三,Field:相当于数据库的Column的概念 第四,Mapping:相当于数据库的Schema的概念 第五,DSL:相当于数据库的SQL(给我们读取Elasticsearch数据的API)
ES架构:Elasticsearch是分布式存储的 第一,分布式节点(Master+Slave):一个Elasticsearch集群会有多个Elasticsearch节点,所谓节点实际上就是运行着Elasticsearch进程的机器。在众多的节点中,其中会有一个Master Node,它主要负责维护索引元数据、负责切换主分片和副本分片身份等工作(后面会讲到分片的概念),如果主节点挂了,会选举出一个新的主节点。 第二,分片:Elasticsearch最外层的是Index(相当于数据库 表的概念);一个Index的数据我们可以分发到不同的Node上进行存储,这个操作就叫做分片。比如现在集群里边有4个节点,我现在有一个Index,想将这个Index在4个节点上存储,那我们可以设置为4个分片。这4个分片的数据合起来就是Index的数据 第三,分片存储原因 (1)如果一个Index的数据量太大,只有一个分片,那只会在一个节点上存储,随着数据量的增长,一个节点未必能把一个Index存储下来。 (2)多个分片,在写入或查询的时候就可以并行操作(从各个节点中读写数据,提高吞吐量) 第四,分片实现高可用:如果某个节点挂了,那部分数据就丢了吗? 在Elasticsearch中,分片会有主分片和副本分片之分(为了实现高可用)数据写入的时候是写到主分片,副本分片会复制主分片的数据,读取的时候主分片和副本分片都可以读,和zookeeper一样,所以和zookeeper放在一起,mysql是主写-从读,kafka是主读写-从同步,zookeeper和ES是主读写-从读 Index需要分为多少个主分片和副本分片都是可以通过配置设置的 如果某个节点挂了,前面所提高的Master Node就会把对应的副本分片提拔为主分片,这样即便节点挂了,数据就不会丢。
Elasticsearch 写入的流程 上面我们已经知道当我们向Elasticsearch写入数据的时候,是写到主分片上的,我们可以了解更多的细节。 客户端写入一条数据,到Elasticsearch集群里边就是由节点来处理这次请求: 集群上的每个节点都是coordinating node(协调节点),协调节点表明这个节点可以做路由。比如节点1接收到了请求,但发现这个请求的数据应该是由节点2处理(因为主分片在节点2上),所以会把请求转发到节点2上。
coodinate(协调)节点通过hash算法可以计算出是在哪个主分片上,然后路由到对应的节点 shard = hash(document_id) % (num_of_primary_shards)
路由到对应的节点以及对应的主分片时,会做以下的事(文字描述对应图片): (1)将数据写到内存缓存区memorybuffer (2)然后将数据写到translog缓存区 translogbuffer (3)每隔1s数据从memorybuffer中refresh到FileSystemCache中,生成segment文件,一旦生成segment文件,就能通过索引查询到了 (4)refresh完,memory buffer就清空了。 (5)每隔5s中,translogbuffer flush到磁盘中 (6)定期/定量从FileSystemCache中,结合translog内容flush index到磁盘中。 对于上图的解释: (1)Elasticsearch会把数据先写入内存缓冲区,然后每隔1s刷新到文件系统缓存区(当数据被刷新到文件系统缓冲区以后,数据才可以被检索到)。所以:Elasticsearch写入的数据需要1s才能查询到 (2)为了防止节点宕机,内存中的数据丢失,Elasticsearch会另写一份数据到日志文件上,但最开始的还是写到内存缓冲区,每隔5s才会将缓冲区的刷到磁盘中。所以:Elasticsearch某个节点如果挂了,可能会造成有5s的数据丢失。 (3)等到磁盘上的translog文件大到一定程度或者超过了30分钟,会触发commit操作,将内存中的segement文件异步刷到磁盘中,完成持久化操作。 小结:写内存缓冲区(定时去生成segement,生成translog),能够让数据能被索引、被持久化。最后通过commit完成一次的持久化。等主分片写完了以后,会将数据并行发送到副本集节点上,等到所有的节点写入成功就返回ack给协调节点,协调节点返回ack给客户端,完成一次的写入。
Elasticsearch更新和删除 Elasticsearch的更新和删除操作流程:
第一步:给对应的doc记录打上.del标识; 第二步:如果是删除操作就打上delete状态; 第三步:如果是更新操作就把原来的doc标志为delete,然后重新新写入一条数据(更新=先删除再插入); 相同点:更新和删除的时候,实际上都是把doc状态标记为delete状态
对于ES,前面提到,每隔1s会生成一个segement文件,那segement文件会越来越多越来越多。Elasticsearch会有一个merge任务,会将多个segement文件合并成一个segement文件。在merge合并的过程中,会把带有delete状态的doc给物理删除掉,就完成了物理删除。
Elasticsearch查询 查询我们最简单的方式可以分为两种: (1)根据ID查询doc;代码:public Document doc(int docID); (2)根据query(搜索词)去查询匹配的doc;代码:public TopDocs search(Query query, int n); public Document doc(int docID);
第一种查询Get:根据ID去查询具体的doc的流程是: 第一步,检索内存的Translog文件; 第二步,检索硬盘的Translog文件; 第三步,检索硬盘的Segement文件。 第二种查询Search/Query:根据query去匹配doc的流程是: 同时去查询内存和硬盘的Segement文件 一图小结两种查询
两种查询方式:Get(通过ID去查Doc是实时的),Query/Search(通过query去匹配Doc是近实时的), 问题:为什么Get是实时的,Query/Search是近实时的? 理由:因为segement文件是每隔一秒才生成一次的。
Elasticsearch查询又分可以为三个阶段:
第一阶段:QUERY_AND_FETCH(查询完就返回整个Doc内容) 第二阶段:QUERY_THEN_FETCH(先查询出对应的Doc id ,然后再根据Doc id 匹配去对应的文档) 第三阶段:DFS_QUERY_THEN_FETCH(先算分,再查询)
「这里的 “分” 指的是 词频率和文档的频率(Term Frequency、Document Frequency)众所周知,出现频率越高,相关性就更强」 ps:一般我们用得最多的就是QUERY_THEN_FETCH,第一种查询完就返回整个Doc内容(QUERY_AND_FETCH)只适合于只需要查一个分片的请求。
QUERY_THEN_FETCH总体的流程流程大概是:
(1)客户端请求发送到集群的某个节点上。集群上的每个节点都是coordinate node(协调节点) (2)协调节点将搜索的请求转发到所有分片上(主分片和副本分片都行) (3)每个分片将自己搜索出的结果(doc id)返回给协调节点,由协调节点进行数据的合并、排序、分页等操作,产出最终结果。 (4)接着由协调节点根据 doc id 去各个节点上拉取实际的 document 数据,最终返回给客户端。
Query Phase阶段时节点做的事:
(1)协调节点向目标分片发送查询的命令(转发请求到主分片或者副本分片上) (2)数据节点(在每个分片内做过滤、排序等等操作),返回doc id给协调节点
Fetch Phase阶段时节点做的事:
(1)协调节点得到数据节点返回的doc id,对这些doc id做聚合,然后将目标数据分片发送抓取命令(希望拿到整个Doc记录) (2)数据节点按协调节点发送的doc id,拉取实际需要的数据返回给协调节点
小结:ES内部主流程:由于Elasticsearch是分布式的,所以需要从各个节点都拉取对应的数据,然后最终统一合成给客户端(ps:只是Elasticsearch把这些活都干了,我们在使用的时候无感知而已)
略,全文都是要记的。
梳理一下全文,ES两个作用,第一,在ELK组合收集日志中对日志搜索,第二,使用ES对特定的业务数据搜索
第一,ElasticSearch定义 + ElasticSearch取代数据库like查找的现实需求(三个理由) 效率高 + 查询的结果排序 + 模糊查询
第二,为什么Elasticsearch为什么可以实现快速的“模糊匹配”或者快速的“相关性查询”? 标准答案:倒排索引 + 分词器
第三,Elasticsearch数据结构(Term Index、Term Dictionary、PostingList)+ 数据结构内部的优化 (TermIndex的优化 + PostingList的优化) 3.1 ES索引库为什么查找快?就是ES数据结构决定的,对应于ES的数据结构,都有优化方式 Term Index的优化 + Term Dictionary的优化 + PostingList的优化 3.2 金手指:对于Term Index,为了保证足够快,Term Index存储在内存中,既然存放在内存中,就好缩小占用空间大小,所以,对于Term Index的优化主要是,使用FST存储形式,通过对词典中单词前缀和后缀的重复利用,压缩了存储空间,第二个优化就是使用FST存储形式,O(len(str))的查询时间复杂度 3.3 金手指:Term Dictionary的优化主要体现在查找性能上,就是使用二分查找。 3.4 金手指:Posting List是用来存放Term Dictionary的位置,优化包括两个:
3.4.1 FOR编码:既然是存放Term Dictionary位置,就要知道,怎样使占用的空间尽量小,使用FOR编码技术对里面的数据压缩; 3.4.2 对文档ID交并补操作:既然是存放Term Dictionary位置,就要能够快速返回ID范围,PostingList使用Roaring Bitmaps来对文档ID进行交并集操作
第四,Elasticsearch的概念和架构(术语和架构是联系在一起的) Index table document row filed column mapping schema DSL SQL
第五,ES内部结构 + ES读写流程(读就是查询,包括两种方式;写包括更新和删除) 5.1 Elasticsearch 写入的流程(主要是ES的内部结构) 5.2 Elasticsearch更新和删除(写操作) 5.3 Elasticsearch的两种查询方式(读操作:Get、Query/Search)
原理层面:Elasticsearch,完成了。
天天打码,天天进步!!!