基于Java的Mahout的目标是构建可扩展的机器学习库。Python中是否有任何等效的库?
强烈建议 http://scikit-learn.sourceforge.net/
Spark MLlib被重新推荐。它是一个可扩展的机器学习库,可以从HDFS读取数据,当然可以在Spark上运行。
您可以通过PySpark访问它(请参阅编程指南的Python示例)。