information-retrieval
-
如何在Lucene QueryParser中指定两个字段? 我阅读但我没有得到它。 目前我有一个非常奇怪的结构,如: 因此,解析器在字段“bodytext”中查找搜索词,在字段“title”中查找搜索词。
-
-
如何仅从 HTML 页面中提取主要文本内容? 更新 Boilerpipe似乎工作得很好,但我意识到我不仅需要主要内容,因为许多页面没有文章,而只是链接到整个文本的简短描述(这在新闻门户网站中很常见),我不想丢弃这些短文本。 因此,
-
短语查询和使用带状疱疹过滤器之间有什么区别? 我目前正在使用lucene索引网页。目的是能够快速提取哪个页面包含某个表达式(通常为1,2或3个单词),以及页面中还包含哪些其他单词(或1到3个单词的组)。这将用于构建/丰富/更改同义词库
-
标签