大规模机器学习 - Python还是Java?[已关闭]
我目前正在着手一个项目,该项目将涉及抓取和处理大量数据(数百个演出),并挖掘它们以提取结构化数据,命名实体识别,重复数据删除,分类等。
我熟悉Java和Python世界的ML工具:Lingpipe,Mahout,NLTK等。但是,当涉及到为如此大规模的问题选择一个平台时,我缺乏足够的经验来在Java或Python之间做出决定。
我知道这听起来像是一个模糊的问题,但我正在寻找有关选择Java或Python的一般建议。JVM提供了比Python更好的性能(?),但是像Lingpipe等库是否与Python生态系统相匹配?如果我使用这个Python,那么扩展它并在多台计算机上管理它有多容易。
我应该选择哪一个,为什么?