Hadoop 适合运行我的模拟吗?
2022-09-03 05:42:53
在Java中编写了一个随机模拟,它从磁盘上的几个CSV文件加载数据(总共约100MB),并将结果写入另一个输出文件(没有太多数据,只是一个布尔值和几个数字)。还有一个参数文件,对于不同的参数,预计仿真输出的分布会发生变化。为了确定正确/最佳输入参数,我需要跨多个输入参数配置运行多个仿真,并查看每个组中输出的分布。每次模拟需要0.1-10分钟,具体取决于参数和随机性。
我一直在阅读有关Hadoop的信息,并想知道它是否可以帮助我运行大量模拟;在不久的将来,我可能会访问大约8台联网的桌面计算机。如果我理解正确,map函数可以运行我的模拟并吐出结果,并且化简器可能是恒等式。
我担心的是HDFS,它似乎意味着大文件,而不是少量的小CSV文件(没有一个足够大,甚至不足以构成64MB的最小推荐块大小)。此外,每个模拟只需要每个 CSV 文件的相同副本。
Hadoop对我来说是错误的工具吗?