apache-spark
-
从 SparkSession 获取 JavaSparkContext 我正在使用 一个来运行我的 spark 应用程序,因为我使用了很多 spark-sql 功能。我想使用 从列表中创建RDD。但是通过会话,我只能得到一个普通的.有没有办法在这个方向上改变环境?
-
-
火花启动器无限等待作业完成 我正在尝试从Java代码将带有Spark作业的JAR提交到YARN集群中。我正在使用SparkLauncher提交SparkPi示例: 有两个问题: 在“yarn-cluster”模式下提交时,应用程序成功提交到 YARN 并成功执行(它在 YA
-
-
apache spark MLLib:如何为字符串功能构建标记点? 我正在尝试使用Spark的MLLib构建一个NaiveBayes分类器,该分类器将一组文档作为输入。 我想把一些东西作为功能(即作者,显式标签,隐式关键字,类别),但是从看,似乎a只包含替身,即它看
-
如何有效地将多个 json 文件读取到 Dataframe 或 JavaRDD 中? 我可以使用以下代码读取单个 json 文件,但我需要读取多个 json 文件并将它们合并到一个数据帧中。我该怎么做? 或者有没有办法将多个json文件读取到JavaRDD中,然后转换为Dataframe?
-
-
本地类不兼容 异常:从 IDE 独立运行 spark 时 我开始测试火花。我在本地计算机上安装了 spark,并使用单个工作线程运行本地群集。当我尝试通过设置sparconf从IDE执行我的作业时,如下所示:
-
Spark Java 错误:大小超过整数.MAX_VALUE 我正在尝试使用spark来完成一些简单的机器学习任务。我使用 pyspark 和 spark 1.2.0 来做一个简单的逻辑回归问题。我有 120 万条用于训练的记录,我对记录的特征进行了哈希处理。当我将散列特征
-
标签