apache-spark
-
-
-
如何以编程方式检测 Databricks 环境 我正在编写一个 spark 作业,该作业需要在本地和 Databricks 上运行。 每个环境(文件路径)中的代码必须略有不同,因此我试图找到一种方法来检测作业是否在Databricks中运行。到目前为止,我发
-
如何将模型从ML Pipeline保存到S3或HDFS? 我正在尝试保存ML Pipeline生成的数千个模型。如的答案所示,模型可以按如下方式保存: 我已经尝试过使用,因为我希望模型最终保存到amazon s3,但它们都失败了,并显示指示找不到路径的消
-
Apache Spark Streaming 的集成测试失败 我一直在尝试通过我为Apache Spark项目编写的一些单元/集成测试来跟踪问题。 使用Spark 1.1.1时,我的测试通过了。当我尝试升级到1.4.0(也尝试了1.4.1)时,测试开始失败。 我已经设法将重现问
-
如何找到哪个Java / Scala线程锁定了文件? 简言之: 如何找到哪个Java / Scala线程锁定了文件?我知道JVM中的类/线程锁定了一个具体的文件(与文件区域重叠),但我不知道如何。当我在断点中停止应用程序时,可以找出哪个类/线程正
-
在 Spark 中,是否可以在两个执行器之间共享数据? 我有一个非常大的只读数据,我希望同一节点上的所有执行器都使用它。这在Spark中是可能的吗?我知道,你可以广播变量,但你能广播非常大的数组吗?在引擎盖下,它是否在同一节点上的执
-
从 pyspark 手动调用 spark 的垃圾回收 我一直在本地模式下使用pyspark 1.5在我的4核16GB计算机上对大约300万条记录x 15列所有字符串运行工作流。我注意到,如果我在没有首先重新启动 spark 的情况下再次运行相同的工作流,内存就会耗
-
-
标签