apache-spark
-
-
如何设置 Spark 执行器的数量? 如何从 Java(或 Scala)代码量配置具有 和 的执行器量?我经常看到2个执行者。看起来不起作用,并且是关于不同的东西。 我只需要将执行器的数量设置为等于集群大小,但总是只有2个。我知
-
导致随机播放的 Spark 转换有哪些? 我在 Spark 文档操作中很难找到导致随机播放的操作,而操作则不会。在此列表中,哪些会导致洗牌,哪些不会导致洗牌? 地图和过滤器不会。但是,我不确定其他人。
-
如何在气流中运行 Spark 代码? 你好,地球人!我正在使用 Airflow 来计划和运行 Spark 任务。到这个时候,我发现的只是Airflow可以管理的python DAG。 DAG 示例: 问题是我不擅长Python代码,并且有一些任务是用Java编写的。我的问
-
-
-
如何在火花流中更新广播变量? 我相信,我有一个相对常见的火花流用例: 我有一个对象流,我想根据一些参考数据进行过滤 最初,我认为使用广播变量实现这将是一件非常简单的事情: 但是,尽管不经常,我的参考数
-
-
如何强制 Spark 执行代码? 我如何强制Spark执行对map的调用,即使它认为由于延迟评估而不需要执行? 我试图放地图调用,但这仍然没有解决问题。我的地图方法实际上将结果上传到HDFS。所以,它不是无用的,但Spark认为
-
将弹簧与火花一起使用 我正在开发一个Spark应用程序,我习惯于Spring作为依赖注入框架。现在我遇到了一个问题,即处理部分使用Spring的@Autowired功能,但它被Spark序列化和反序列化。 所以下面的代码给我带来了麻烦:
标签