apache spark MLLib:如何为字符串功能构建标记点?
我正在尝试使用Spark的MLLib构建一个NaiveBayes分类器,该分类器将一组文档作为输入。
我想把一些东西作为功能(即作者,显式标签,隐式关键字,类别),但是从文档中看,似乎a只包含替身,即它看起来像.LabeledPoint
LabeledPoint[Double, List[Pair[Double,Double]]
相反,我从其余代码中输出的内容类似于 .LabeledPoint[Double, List[Pair[String,Double]]
我可以自己做出转换,但这似乎很奇怪。我应该如何使用MLLib来处理这个问题?
我相信答案是在课堂上(即散列功能),但我不明白它是如何工作的,它似乎需要某种容量值,但我的关键字和主题列表实际上是无限的(或者更好,在开始时是未知的)。HashingTF