StandardTokenizerFactory和Solr中的KeywordTokenizerFactory之间的区别？

java tokenize solr solrnet

2022-09-03 00:08:32

我是Solr的新手，我想知道什么时候使用StandardTokenizerFactory和KeywordTokenizerFactory？

我阅读了Apache Wiki上的文档，但我没有得到它。

任何人都可以解释StandardTokenizerFactory和KeywordTokenizerFactory之间的区别吗？

答案 1

StandardTokenizerFactory ：-
它在空格上标记，以及条形字符

文档：-

在标点字符处拆分单词，删除标点符号。但是，不后跟空格的点被视为令牌的一部分。在连字符处拆分单词，除非令牌中有数字。在这种情况下，整个令牌被解释为产品编号，并且不会拆分。将电子邮件地址和互联网主机名识别为一个令牌。

将用于要在字段数据上搜索的字段。

例如 -

http://example.com/I-am+example?Text=-Hello

将生成7个令牌（用逗号分隔） -

http,example.com,I,am,example,Text,Hello

关键字令牌器工厂：-

关键字分词器根本不会拆分输入。
不对字符串执行任何处理，并且整个字符串被视为单个实体。
这实际上不会进行任何标记化。它将原始文本作为一个术语返回。

主要用于排序或分面要求，在对多个单词进行筛选时，您希望与确切的分面匹配，并且排序为排序不适用于标记化字段。

例如：

http://example.com/I-am+example?Text=-Hello

将生成单个令牌 -

http://example.com/I-am+example?Text=-Hello

答案 2