Elasticsearch analysis总结

blurhead 2020-01-07 19:56

Analysis

Analysis是es中来对文本作处理的过程, 简单地说就是把句子分成一个个token, 具体由analyzer来执行这一过程.

为了能高效地检索数据, ES会在数据存储前预先对文本做分词, 对每个token建立一个倒排索引.

对应的analyzer是 Index time analyzer

查询ES中匹配关键字的文档时, 也要对搜索的关键字做处理, 将其转化成更小的单元token.

对应的analyzer是 Search time analyzer

analyzer由以下三部分组成

一个analyzer有且只能有一个tokenizer, 可以有多个CharFilter和TokenFilter

先由Character Filter对文本做预处理, 然后把结果传给Tokenizer分词, 最后Token Filter对token做进一步的处理

将一段文字切分成许多token并输出

同时还做了以下几件事情

对文本做预处理, 可以增加, 删除, 替换文本中的字符

对分词的结果做进一步处理, 包括修改token(更改大小写), 删除token(去掉停止词), 添加token(添加同义词)