StandardTokenizerFactory和Solr中的KeywordTokenizerFactory之间的区别?

2022-09-03 00:08:32

我是Solr的新手,我想知道什么时候使用StandardTokenizerFactoryKeywordTokenizerFactory

我阅读了Apache Wiki上的文档,但我没有得到它。

任何人都可以解释StandardTokenizerFactory和KeywordTokenizerFactory之间的区别吗


答案 1

StandardTokenizerFactory :-
它在空格上标记,以及条形字符

文档 :-

在标点字符处拆分单词,删除标点符号。但是,不后跟空格的点被视为令牌的一部分。在连字符处拆分单词,除非令牌中有数字。在这种情况下,整个令牌被解释为产品编号,并且不会拆分。将电子邮件地址和互联网主机名识别为一个令牌。

将用于要在字段数据上搜索的字段。

例如 -

http://example.com/I-am+example?Text=-Hello

将生成7个令牌(用逗号分隔) -

http,example.com,I,am,example,Text,Hello

关键字令牌器工厂 :-

关键字分词器根本不会拆分输入。
不对字符串执行任何处理,并且整个字符串被视为单个实体。
这实际上不会进行任何标记化。它将原始文本作为一个术语返回。

主要用于排序或分面要求,在对多个单词进行筛选时,您希望与确切的分面匹配,并且排序为排序不适用于标记化字段。

例如:

http://example.com/I-am+example?Text=-Hello

将生成单个令牌 -

http://example.com/I-am+example?Text=-Hello

答案 2

推荐