ELK Stack插件——Analyze中文分词

TangLu 运维 2019-05-17 4698 0

一、什么是分词

Elasticsearch的Analysis功能叫做分词,是把全文本转换成一系列单词的过程。Elasticsearch本身有很多的分词API,如standard(按单词切分)、simple、whitespace(按空格切分)、pattern(正则分词)等等,如图:

分词.png


二、Elasticsearch的中文分词

由于外国人对于汉字的不了解,没有词汇的概念,只是单纯的逐个拆分每句话中的每个字。为了更好的进行中文分词,需要使用专门的中文分词插件elasticsearch-analysis-ik,简称IK。

1、下载IK分词器,下载地址是https://github.com/medcl/elasticsearch-analysis-ik

2、将下载好的包解压并放到elasticsearch/plugins目录下

ik1.png

3、重启Elasticsearch服务

4、查询数据进行测试,可以看到图中将analyzer指定为了ik_smart,除此还可以使用最大化分词ik_max_smart,后者可以尽可能的多去进行分词。具体用哪个看自己需要:

ik2.png

评论