Hadoop gzip 压缩文件
2022-09-02 12:24:43
我是hadoop的新手,并试图处理维基百科转储。这是一个 6.7 GB gzip 压缩的 xml 文件。我读到hadoop支持gzip压缩文件,但只能由映射器在单个作业上进行处理,因为只有一个映射器可以解压缩它。这似乎限制了处理。有替代方案吗?例如解压缩并将xml文件拆分为多个块,然后使用gzip重新压缩它们。
我从 http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html
感谢您的帮助。