Spark - 任务不可序列化:如何使用调用外部类/对象的复杂映射闭包?
看看这个问题:Scala + Spark - Task not serializeable: java.io.NotSerializableExceptionon。当调用函数外部闭包时,仅在类上而不是对象上。
问题:
假设我的映射器可以是函数(def),它们在内部调用其他类并创建对象并在内部执行不同的操作。(或者它们甚至可以是扩展(Foo)=> Bar并在其appliance方法中进行处理的类 - 但现在让我们忽略这种情况)
Spark 仅支持 Java 序列化以进行闭包。有什么办法可以解决这个问题吗?我们可以用一些东西而不是闭包来做我想做的事情吗?我们可以轻松地用Hadoop做这种事情。这一件事使Spark对我来说几乎无法使用。不能指望所有第三方库都让所有类都扩展可序列化!
可能的解决方案:
包装器当然似乎是答案,但我看不出具体是如何做到的。