产生真实单词的词干算法
我需要取一段文字并从中提取一个“标签”列表。其中大部分都是直截了当的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区
我使用了Porter Stemmer算法的实现(顺便说一句,我是用PHP编写的):
http://tartarus.org/~martin/PorterStemmer/php.txt
这在一定程度上是有效的,但不会返回“真实”的单词。上面的例子被归结为“commun”。
我尝试过“Snowball”(在另一个Stack Overflow线程中建议)。
http://snowball.tartarus.org/demo.php
对于我的例子(社区/社区),Snowball源于“communiti”。
问题
有没有其他词干分析算法可以做到这一点?还有其他人解决这个问题吗?
我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短单词作为要显示的实际单词。