如何在hadoop hdfs中列出目录中的所有文件及其子目录
我在hdfs中有一个文件夹,它有两个子文件夹,每个子文件夹有大约30个子文件夹,最后,每个子文件夹都包含xml文件。我想列出所有xml文件,只给出主文件夹的路径。在本地,我可以使用apache commons-io的FileUtils.listFiles()来做到这一点。我试过这个
FileStatus[] status = fs.listStatus( new Path( args[ 0 ] ) );
但它只列出了前两个子文件夹,并没有进一步。有没有办法在hadoop中做到这一点?