spark-streaming
-
已用内存、已提交内存和最大堆内存的差异 我正在监视 OutOfMemoryException 的 spark 执行器 JVM。我使用Jconsole连接到执行器JVM。以下是Jconsole的快照: 在图像中,使用的内存显示为3.8G,提交的内存为8.6G,最大内存也是8.6G,任何人都可以解释
-
如何在火花流中更新广播变量? 我相信,我有一个相对常见的火花流用例: 我有一个对象流,我想根据一些参考数据进行过滤 最初,我认为使用广播变量实现这将是一件非常简单的事情: 但是,尽管不经常,我的参考数
-
将弹簧与火花一起使用 我正在开发一个Spark应用程序,我习惯于Spring作为依赖注入框架。现在我遇到了一个问题,即处理部分使用Spring的@Autowired功能,但它被Spark序列化和反序列化。 所以下面的代码给我带来了麻烦:
-
为什么启动 StreamingContext 会失败,并显示“IllegalArgumentException: require failed: no output operations registered, 所以没有执行”? 我正在尝试以Twitter作为源执行Spark Streaming示例,如下所示: 任何建议如何解决此问题?
-
Spark Streaming:为什么内部处理成本如此之高,无法处理几 MB 的用户状态? 根据我们的实验,我们看到,当状态变得超过一百万个对象时,有状态的 Spark 流内部处理成本会花费大量时间。因此,延迟会受到影响,因为我们必须增加批处理间隔以避免不稳定的行为(处理
-
如何在 spark-submit 命令中指定要使用的 java 版本? 我想在远程服务器上的 yarn 集群上运行 spark 流应用程序。默认的java版本是1.7,但我想为我的应用程序使用1.8,它也在服务器中,但不是默认值。有没有办法通过spark-submit指定java 1.8的位置,这样
-
标签