使用Apache Spark和Java将CSV解析为DataFrame/DataSet将 Spark 2.x(及更高版本)与 Java 结合使用现在,我们可以通过 2 种方式聚合数据
2022-09-02 05:04:01
我是 Spark 的新手,我想使用 group-by & reduce 从 CSV 中找到以下内容(一行由使用):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA
Sales, Lead, 32000, TN
Sales, Lead, 32000, AP
Sales, Lead, 32000, TN
Sales, Lead, 32000, LA
Sales, Lead, 32000, LA
Marketing, Associate, 18000, TN
Marketing, Associate, 18000, TN
HR, Manager, 58000, TN
我想简化关于CSV,按部门,指定,州分组,并附加列,包括sum(costToCompany)和TotalEmployeeCount
应该得到如下结果:
Dept, Desg, state, empCount, totalCost
Sales,Lead,AP,2,64000
Sales,Lead,LA,3,96000
Sales,Lead,TN,2,64000
有没有办法使用转换和操作来实现这一点。还是我们应该进行RDD手术?