apache-spark
-
-
如何在 Spark RDD (Java) 中按索引获取元素 我知道rdd.firstwfirst()的方法,它给了我RDD中的第一个元素。 还有rdd.take(num)方法,它给了我第一个“num”元素。 但是,难道没有按索引获取元素的可能性吗? 谢谢
-
如何使用Java中的火花在Dataframe中将空值替换为特定值? 我正在尝试使用Java提高在Spark中实现的Logistic回归算法的准确性。为此,我正在尝试将列中存在的 Null 或无效值替换为该列中最常用的值。例如:- 在本例中,我将“Name”列中的所有 NULL 值替
-
Spark - 按 HAVING 使用数据帧语法进行分组? 在没有 sql/hiveContext 的情况下在 Spark 中使用 groupby-have 的语法是什么?我知道我能做到 这似乎并不存在。
-
为什么启动 StreamingContext 会失败,并显示“IllegalArgumentException: require failed: no output operations registered, 所以没有执行”? 我正在尝试以Twitter作为源执行Spark Streaming示例,如下所示: 任何建议如何解决此问题?
-
Spark:如何使用 Scala 或 Java User Defined Functions 映射 Python? 例如,假设我的团队选择Python作为使用Spark开发的参考语言。但后来出于性能原因,我们希望开发特定的Scala或Java特定的librairies,以便用我们的Python代码映射它们(类似于带有Scala或Java框架的Pyth
-
Spark 和 Not Serialize DateTimeFormatter 我正在尝试在Spark中使用java.time.format中的DateTimeFormatter,但它似乎不可序列化。这是相关的代码块: 如何避免异常?有没有更好的库来解析时间戳?我读到Joda也是不可序列化的,并且已被合并
-
计算 RDD 中的行数 我正在将spark与java一起使用,并且我有一个500万行的RDD。有没有一个解决方案可以让我计算RDD的行数。我试过,但这需要很多时间。我已经看到我可以使用该功能。但是我没有找到这个函数的java
-
如何将整列的大小写更改为小写? 我想在 Spark 数据集中将整列的大小写更改为小写 我尝试了 和 ,对于非常大的数据集,这是一个缓慢而复杂的过程。 我还找到了一个“更低”的方法,但没有知道如何在dasaset中使其工作,请
-
如何在使用 JAR 运行 spark-submit 时将程序参数传递给 main 函数? 我知道这是一个微不足道的问题,但我无法在互联网上找到答案。 我正在尝试使用带有程序参数()的函数运行Java类。 如何传递这些参数?它们在每次运行作业时频繁更改,并且需要作为参
标签