apache-spark
-
将 JAR 文件添加到 Spark 作业 - spark-submit 真。。。它已经被讨论了很多。 但是,有很多歧义和提供的一些答案...包括在 jars/executor/driver 配置或选项中复制 JAR 引用。 模棱两可和/或省略的细节 对于每个选项,应澄清以下含糊不清、不明
-
Spark 错误 - 不支持的类文件主要版本 我正在尝试在 Mac 上安装 Spark。我使用自制啤酒来安装 spark 2.4.0 和 Scala。我已经在我的anaconda环境中安装了PySpark,并且正在使用PyCharm进行开发。我已导出到我的 bash 配置文件:
-
Pyspark:异常:Java 网关进程在向驱动程序发送其端口号之前退出 我正在尝试在我的Macbook air上运行pyspark。当我尝试启动它时,我得到错误: 无济于事。我也看过这里: 但这个问题从未得到解答。请帮忙!谢谢。
-
PySpark: java.lang.OutofMemoryError: Java heap space 我最近一直在我的服务器上使用PySpark和Ipython,有24个CPU和32GB RAM。它只在一台计算机上运行。在我的过程中,我想收集大量数据,如下代码所示: 它给了我超出记忆错误。.另外,在此错误之
-
-
已用内存、已提交内存和最大堆内存的差异 我正在监视 OutOfMemoryException 的 spark 执行器 JVM。我使用Jconsole连接到执行器JVM。以下是Jconsole的快照: 在图像中,使用的内存显示为3.8G,提交的内存为8.6G,最大内存也是8.6G,任何人都可以解释
-
聚合函数 在 Spark 中按组计数使用次数使用 Python与斯卡拉使用Java 我正在尝试在pySpark的一行代码中进行多个操作,但不确定这是否适用于我的情况。 我的意图是不必将输出另存为新的数据帧。 我目前的代码相当简单:
-
Spark sql 如何在不丢失空值的情况下爆炸 我有一个数据帧,我试图扁平化。作为该过程的一部分,我想将其分解,因此,如果我有一列数组,则该数组的每个值将用于创建单独的行。例如 如何分解数组,以免丢失空行? 我使用的是
-
使用 sc.textFile (“s3n://...”) 从 S3 生成读取文件 尝试使用 spark-shell 读取位于 S3 中的文件: IOException: No FileSystem for scheme: s3n 错误发生在: 开发机器上的 Spark 1.31 或 1.40(无 Hadoop 库) 从 所暗示的那样。我将尝试Spark for Hadoop 2.40,看看
-
Apache Spark - foreach vs foreachPartition 何时使用什么? 我想知道,由于并行度更高,与考虑我为了在累加器变量中执行一些求和而流经的情况的方法相比,will是否会产生更好的性能。
标签