apache-spark
-
火花:读取输入流而不是文件 我在Java应用程序中使用SparkSQL对使用Databricks进行解析的CSV文件进行一些处理。 我正在处理的数据来自不同的来源(远程URL,本地文件,Google Cloud Storage),我习惯于将所有内容转换为InputStream,
-
如何将Apache Spark与Spring MVC Web应用程序集成以进行交互式用户会话 我正在尝试使用Apache Spark MLlib构建一个电影推荐器系统。我已经用java为推荐器编写了一个代码,并且在使用命令运行时可以正常工作。 据我搜索,我发现我们可以使用Spark SQL,与JDBC集成。但我
-
-
为 Apache Spark 指定外部配置文件 我想在配置文件中指定 Spark 的所有属性,然后在运行时加载该配置文件。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 事实证明,我对如何做到这一点感到非常困
-
Spark 1.6-未能在 hadoop 二进制路径中找到 winutils 二进制文件 我知道有一个与此非常相似的帖子( 我意识到我需要 winutils.exe 文件,所以我用它下载了一个 hadoop 二进制 2.6.0,定义了一个名为 HADOOP_HOME 的环境变量: 并将其放在路径上,如下所示:%HADOOP_
-
将数据集转换为 RDD 的火花 我有一个数据集[字符串],需要转换为RDD[字符串]。如何? 注意:我最近从 spark 1.6 迁移到 spark 2.0。我的一些客户期待RDD,但现在Spark给了我数据集。
-
Spark:无法加载平台的原生 hadoop 库 我试图从Spark开始。我的库中有Hadoop(3.3.1)和Spark(3.2.2)。我已将SPARK_HOME PATH、HADOOP_HOME和LD_LIBRARY_PATH设置为各自的路径。我也在运行JDK 17(echo和-version在终端中工作正常)。 但是,我仍然收
-
火花 - 地图中的过滤器 我正在尝试在地图功能内部进行过滤。基本上,我在经典的map-reduce中这样做的方法是,当筛选条件满足时,mapper不会向上下文写入任何内容。如何实现与火花的类似效果?我似乎无法从map函数返
-
-
Apache Spark:在Java中有效地使用mapPartitions 在目前早期发布的名为《高性能火花》的教科书中,Spark的开发人员指出: 为了让 Spark 能够灵活地将一些记录溢出到磁盘,重要的是以这样一种方式表示内部的函数,即你的函数不会强制在
标签