apache-spark 第2页

首页 ❯

apache-spark

更多 »

java apache-spark apache-spark-sql
Spark DataFrame 并重命名多列（Java）有没有比多次调用更好的方法来同时在给定的SparkSQL上添加所有或多个列的前缀或重命名？
java scala protocol-buffers apache-spark hdfs
Spark 和 Java：在 await 中抛出的异常结果我正在尝试从Java应用程序中将虚拟机中运行的Spark集群与IP和端口连接起来，并运行字数统计示例：
java apache-spark databricks
如何以编程方式检测 Databricks 环境我正在编写一个 spark 作业，该作业需要在本地和 Databricks 上运行。每个环境（文件路径）中的代码必须略有不同，因此我试图找到一种方法来检测作业是否在Databricks中运行。到目前为止，我发
java scala apache-spark apache-spark-mllib apache-spark-ml
如何将模型从ML Pipeline保存到S3或HDFS？我正在尝试保存ML Pipeline生成的数千个模型。如的答案所示，模型可以按如下方式保存：我已经尝试过使用，因为我希望模型最终保存到amazon s3，但它们都失败了，并显示指示找不到路径的消�
unit-testing java integration-testing apache-spark powermock
Apache Spark Streaming 的集成测试失败我一直在尝试通过我为Apache Spark项目编写的一些单元/集成测试来跟踪问题。使用Spark 1.1.1时，我的测试通过了。当我尝试升级到1.4.0（也尝试了1.4.1）时，测试开始失败。我已经设法将重现问�
java scala apache-spark hive
如何找到哪个Java / Scala线程锁定了文件？简言之：如何找到哪个Java / Scala线程锁定了文件？我知道JVM中的类/线程锁定了一个具体的文件（与文件区域重叠），但我不知道如何。当我在断点中停止应用程序时，可以找出哪个类/线程正�
java scala apache-spark
在 Spark 中，是否可以在两个执行器之间共享数据？我有一个非常大的只读数据，我希望同一节点上的所有执行器都使用它。这在Spark中是可能的吗？我知道，你可以广播变量，但你能广播非常大的数组吗？在引擎盖下，它是否在同一节点上的执�
python garbage-collection java apache-spark pyspark
从 pyspark 手动调用 spark 的垃圾回收我一直在本地模式下使用pyspark 1.5在我的4核16GB计算机上对大约300万条记录x 15列所有字符串运行工作流。我注意到，如果我在没有首先重新启动 spark 的情况下再次运行相同的工作流，内存就会耗�
java apache-spark apache-spark-sql
如何将列值从字符串转换为十进制？我有一个包含非常大的整数值的数据帧，例如：在这里，我得到的只是一个全零的列。我应该如何继续？
java apache-spark core hadoop-yarn dataset
Spark：以编程方式获取集群核心数我在纱线簇中运行我的火花应用。在我的代码中，我使用队列的可用核心数在我的数据集上创建分区：我的问题：如何通过编程方式而不是通过配置来获取队列的可用核心数？

1 2 3 4 5 6 7