pyspark
-
Spark 错误 - 不支持的类文件主要版本 我正在尝试在 Mac 上安装 Spark。我使用自制啤酒来安装 spark 2.4.0 和 Scala。我已经在我的anaconda环境中安装了PySpark,并且正在使用PyCharm进行开发。我已导出到我的 bash 配置文件:
-
Pyspark:异常:Java 网关进程在向驱动程序发送其端口号之前退出 我正在尝试在我的Macbook air上运行pyspark。当我尝试启动它时,我得到错误: 无济于事。我也看过这里: 但这个问题从未得到解答。请帮忙!谢谢。
-
PySpark: java.lang.OutofMemoryError: Java heap space 我最近一直在我的服务器上使用PySpark和Ipython,有24个CPU和32GB RAM。它只在一台计算机上运行。在我的过程中,我想收集大量数据,如下代码所示: 它给了我超出记忆错误。.另外,在此错误之
-
-
聚合函数 在 Spark 中按组计数使用次数使用 Python与斯卡拉使用Java 我正在尝试在pySpark的一行代码中进行多个操作,但不确定这是否适用于我的情况。 我的意图是不必将输出另存为新的数据帧。 我目前的代码相当简单:
-
Spark:如何使用 Scala 或 Java User Defined Functions 映射 Python? 例如,假设我的团队选择Python作为使用Spark开发的参考语言。但后来出于性能原因,我们希望开发特定的Scala或Java特定的librairies,以便用我们的Python代码映射它们(类似于带有Scala或Java框架的Pyth
-
从 pyspark 手动调用 spark 的垃圾回收 我一直在本地模式下使用pyspark 1.5在我的4核16GB计算机上对大约300万条记录x 15列所有字符串运行工作流。我注意到,如果我在没有首先重新启动 spark 的情况下再次运行相同的工作流,内存就会耗
-
Pyspark 错误:“Py4JJavaError:在数据帧上调用 count() 方法时调用 o655.count 时出错。 我是Spark的新手,我正在使用Pyspark 2.3.1将csv文件读取到数据帧中。我能够在 anaconda 环境中运行的 Jupyter 笔记本中读取文件并打印值。这是我使用的代码: 我正在使用Python 3.6.5,如果这有所作
标签