StandardTokenizerFactory和Solr中的KeywordTokenizerFactory之间的区别?
我是Solr的新手,我想知道什么时候使用StandardTokenizerFactory和KeywordTokenizerFactory?
我阅读了Apache Wiki上的文档,但我没有得到它。
任何人都可以解释StandardTokenizerFactory和KeywordTokenizerFactory之间的区别吗?
我是Solr的新手,我想知道什么时候使用StandardTokenizerFactory和KeywordTokenizerFactory?
我阅读了Apache Wiki上的文档,但我没有得到它。
任何人都可以解释StandardTokenizerFactory和KeywordTokenizerFactory之间的区别吗?
StandardTokenizerFactory :-
它在空格上标记,以及条形字符
文档 :-
在标点字符处拆分单词,删除标点符号。但是,不后跟空格的点被视为令牌的一部分。在连字符处拆分单词,除非令牌中有数字。在这种情况下,整个令牌被解释为产品编号,并且不会拆分。将电子邮件地址和互联网主机名识别为一个令牌。
将用于要在字段数据上搜索的字段。
例如 -
http://example.com/I-am+example?Text=-Hello
将生成7个令牌(用逗号分隔) -
http,example.com,I,am,example,Text,Hello
关键字令牌器工厂 :-
关键字分词器根本不会拆分输入。
不对字符串执行任何处理,并且整个字符串被视为单个实体。
这实际上不会进行任何标记化。它将原始文本作为一个术语返回。
主要用于排序或分面要求,在对多个单词进行筛选时,您希望与确切的分面匹配,并且排序为排序不适用于标记化字段。
例如:
http://example.com/I-am+example?Text=-Hello
将生成单个令牌 -
http://example.com/I-am+example?Text=-Hello