Java 开源文本挖掘框架 [已关闭]

我想知道什么是用于文本挖掘的最佳开源Java框架,以使用botg机器学习和字典方法。

我正在使用Mallet,但没有那么多文档,我不知道它是否符合我的所有要求。


答案 1

老实说,我认为这里提出的几个答案非常好。但是,为了满足我的需求,我选择将Apache UIMAClearTK一起使用。它支持几种ML方法,我没有任何许可证问题。另外,我可以为其他ML方法制作包装器,并且我利用了UIMA框架的优势,该框架组织良好且速度快。

谢谢大家的有趣回答。

最好的问候, 乌克兰


答案 2

虽然不是一个专门的文本挖掘框架,但Weka有许多分类器通常用于文本挖掘任务,例如:SVM,kNN,多项式NaiveBayes等。

它还具有一些过滤器来使用文本数据进行炒作,例如可以执行TF / IDF转换的过滤器。StringToWordVector

查看Weka wiki网站了解更多信息。


推荐