apache-spark-sql
-
-
Spark - 按 HAVING 使用数据帧语法进行分组? 在没有 sql/hiveContext 的情况下在 Spark 中使用 groupby-have 的语法是什么?我知道我能做到 这似乎并不存在。
-
如何将整列的大小写更改为小写? 我想在 Spark 数据集中将整列的大小写更改为小写 我尝试了 和 ,对于非常大的数据集,这是一个缓慢而复杂的过程。 我还找到了一个“更低”的方法,但没有知道如何在dasaset中使其工作,请
-
Spark 结构流式处理自动将时间戳转换为本地时间 我的时间戳采用UTC和ISO8601,但使用结构化流,它会自动转换为本地时间。有没有办法阻止这种转换?我想用 UTC 格式使用它。 我正在从Kafka读取json数据,然后使用Spark函数解析它们。
-
-
如何使用JAVA在Spark DataFrame上调用UDF? 与,可以以两种不同的方式使用,一种用于SQL,另一种用于DataFrame。我发现了多个如何使用与sql一起使用的例子,但一直找不到任何关于如何直接在DataFrame上使用的例子。
-
使用Apache Spark和Java将CSV解析为DataFrame/DataSet将 Spark 2.x(及更高版本)与 Java 结合使用现在,我们可以通过 2 种方式聚合数据 我是 Spark 的新手,我想使用 group-by & reduce 从 CSV 中找到以下内容(一行由使用): 有没有办法使用转换和操作来实现这一点。还是我们应该进行RDD手术?
-
尝试在 Spark DataFrame 上使用映射 我最近开始尝试使用 Spark 和 Java。我最初使用了这个著名的例子,一切都如预期的那样进行。现在我正在尝试实现我自己的示例,但使用DataFrames而不是RDD。 在接口 scala 中找到多个非重写抽象
-
一个 SQL 查询即可访问 Java 中的多个数据源(来自 oracle、excel、sql server) 我需要开发可以使用一个数据源(等)从多个数据源(等)获取数据的应用程序。例如:和等。其他要求是性能和重量轻。 我找到了这种方式来做到这一点(如果我错了,我看到了什么缺点,
-
标签