Java Lucene NGramTokenizer
我正在尝试将字符串标记化为ngram。奇怪的是,在NGramTokenizer的文档中,我没有看到一个方法可以返回被标记化的单个ngram。实际上,我只在 NGramTokenizer 类中看到两个返回 String Objects 的方法。
这是我的代码:
Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
- 被标记化的ngram在哪里?
- 如何获取字符串/单词的输出?
我希望我的输出是这样的:This, is, a, test, string, This is, is a, a test, test string, This is a, is a, is a test, a test string.