计算 RDD 中的行数
2022-09-01 19:41:56
我正在将spark与java一起使用,并且我有一个500万行的RDD。有没有一个解决方案可以让我计算RDD的行数。我试过,但这需要很多时间。我已经看到我可以使用该功能。但是我没有找到这个函数的java文档。你能告诉我如何使用它,或者给我看另一个解决方案来获取我的RDD的行数。RDD.count()
fold
这是我的代码:
JavaPairRDD<String, String> lines = getAllCustomers(sc).cache();
JavaPairRDD<String,String> CFIDNotNull = lines.filter(notNull()).cache();
JavaPairRDD<String, Tuple2<String, String>> join =lines.join(CFIDNotNull).cache();
double count_ctid = (double)join.count(); // i want to get the count of these three RDD
double all = (double)lines.count();
double count_cfid = all - CFIDNotNull.count();
System.out.println("********** :"+count_cfid*100/all +"% and now : "+ count_ctid*100/all+"%");
谢谢。