使用MapReduce/Hadoop对大数据进行排序
我正在阅读有关MapReduce的信息,以下事情使我感到困惑。
假设我们有一个包含100万个条目(整数)的文件,并且我们想使用MapReduce对它们进行排序。我理解的方式如下:
编写一个对整数进行排序的映射器函数。因此,框架会将输入文件划分为多个块,并将它们提供给不同的映射器。每个映射器将彼此独立地对其数据块进行排序。完成所有映射器后,我们将把它们的每个结果传递给 Reducer,它将合并结果并给我最终的输出。
我的疑问是,如果我们有一个化简器,那么它如何利用分布式框架,如果最终我们必须将结果合并到一个地方?问题深入到在一个地方合并100万个条目。是这样还是我错过了什么?
谢谢,钱德