Hadoop的文件系统中的通配符列出了API调用上下文目标问题到目前为止我发现了什么问题更新

2022-09-02 12:16:36

tl;dr:为了能够在列出的路径中使用通配符(globs),只需使用globStatus(...)而不是listStatus(...)即可


上下文

我的HDFS集群上的文件被组织成分区,日期是“根”分区。文件结构的简化示例如下所示:

/schemas_folder
├── date=20140101
│   ├── A-schema.avsc
│   ├── B-schema.avsc
├── date=20140102
│   ├── A-schema.avsc
│   ├── B-schema.avsc
│   ├── C-schema.avsc
└── date=20140103
    ├── B-schema.avsc
    └── C-schema.avsc

在我的例子中,目录在不同的日期存储不同类型的数据(本例中为A,B和C)Avro架构。架构可能会启动现有、演进和停止现有...随着时间的流逝。


目标

我需要能够尽快获取给定类型存在的所有架构。在我想要获取类型 A 存在的所有架构的示例中,我想执行以下操作:

hdfs dfs -ls /schemas_folder/date=*/A-schema.avsc

那会给我

Found 1 items
-rw-r--r--   3 user group 1234 2014-01-01 12:34 /schemas_folder/date=20140101/A-schema.avsc
Found 1 items
-rw-r--r--   3 user group 2345 2014-01-02 23:45 /schemas_folder/date=20140102/A-schema.avsc

问题

我不想使用shell命令,并且似乎无法在Java API中找到与上述命令等效的命令。当我尝试自己实现循环时,我得到了糟糕的性能。我想要至少命令行的性能(在我的情况下大约3秒)...


到目前为止我发现了什么

人们可以注意到它打印了两次,一次在每个结果之前。它一开始不会打印一次。这可能暗示通配符不是在侧面实现的,而是由客户端以某种方式处理的。我似乎找不到合适的源代码来查看它是如何实现的。Found 1 itemsFound 2 itemsFileSystem

以下是我的第一张照片,可能有点太天真了...

使用 listFiles(...)

法典:

RemoteIterator<LocatedFileStatus> files = filesystem.listFiles(new Path("/schemas_folder"), true);
Pattern pattern = Pattern.compile("^.*/date=[0-9]{8}/A-schema\\.avsc$");
while (files.hasNext()) {
    Path path = files.next().getPath();
    if (pattern.matcher(path.toString()).matches())
    {
        System.out.println(path);
    }
}

结果:

这完全符合我的预期,但是由于它首先以递归方式列出所有内容,然后进行筛选,因此性能非常差。使用我当前的数据集,需要近25秒...

使用 listStatus(...)

法典:

FileStatus[] statuses = filesystem.listStatus(new Path("/schemas_folder"), new PathFilter()
{
    private final Pattern pattern = Pattern.compile("^date=[0-9]{8}$");

    @Override
    public boolean accept(Path path)
    {
        return pattern.matcher(path.getName()).matches();
    }
});
Path[] paths = new Path[statuses.length];
for (int i = 0; i < statuses.length; i++) { paths[i] = statuses[i].getPath(); }
statuses = filesystem.listStatus(paths, new PathFilter()
{
    @Override
    public boolean accept(Path path)
    {
        return "A-schema.avsc".equals(path.getName());
    }
});
for (FileStatus status : statuses)
{
    System.out.println(status.getPath());
}

结果:

由于s和数组的使用,它似乎执行得更快(大约12秒)。但是,代码更复杂,更难适应不同的情况。最重要的是,性能仍然比命令行版本慢3到4倍!PathFilter


问题

我在这里错过了什么?获得我想要的结果的最快方法是什么?


更新

2014.07.09 - 13:38

Mukesh S的拟议答案显然是最好的API方法。

在我上面给出的示例中,代码最终如下所示:

FileStatus[] statuses = filesystem.globStatus(new Path("/schemas_folder/date=*/A-schema.avsc"));
for (FileStatus status : statuses)
{
    System.out.println(status.getPath());
}

这是到目前为止我能想到的最好看和性能最好的代码,但性能仍然不如shell版本。


答案 1

而不是listStatus,你可以尝试hadoops globStatus。Hadoop 提供了两种文件系统方法来处理 glob:

public FileStatus[] globStatus(Path pathPattern) throws IOException
public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throws IOException

可以指定可选的 PathFilter 以进一步限制匹配项。

有关更多描述,您可以在此处查看Hadoop:Definitive Guide

希望它有帮助..!!!


答案 2

推荐