hadoop
-
混淆 hadoop 作业跟踪器 api 我试图从工作跟踪器中收集一些信息。对于初学者,我想从获取正在运行的作业信息(例如作业ID或作业名称等)开始。但是已经卡住了,这是我得到的(打印出当前正在运行的作业的作业ID):
-
迭代两次值 (MapReduce) 我收到一个迭代器作为参数,我想迭代值两次。 可能吗?如何?签名是由我正在使用的框架(即Hadoop)强加的。 -- edit -- 最后,该方法的真正签名是带有 .我被这个误导了(这实际上是我发现
-
Hadoop的文件系统中的通配符列出了API调用上下文目标问题到目前为止我发现了什么问题更新 为了能够在列出的路径中使用通配符(globs),只需使用显然是最好的API方法。 在我上面给出的示例中,代码最终如下所示: 这是到目前为止我能想到的最好看和性能最好的代码,但性能仍
-
Hadoop gzip 压缩文件 我是hadoop的新手,并试图处理维基百科转储。这是一个 6.7 GB gzip 压缩的 xml 文件。我读到hadoop支持gzip压缩文件,但只能由映射器在单个作业上进行处理,因为只有一个映射器可以解压缩它。这似
-
-
Yarn MapReduce 作业问题 - Hadoop 2.3.0 中的 AM 容器启动错误 我已经设置了Hadoop 2.3.0的2节点集群。它工作正常,我可以成功运行分布式shell-2.2.0.jar个例子。但是当我尝试运行任何mapreduce作业时,我得到错误。我已经)设置了MapRed.xml和其他配置来运行MapReduc
-
-
以编程方式将数据大容量加载到 HBase 中的最快方法是什么? 我有一个纯文本文件,可能有数百万行需要自定义解析,我想尽快将其加载到HBase表中(使用Hadoop或HBase Java客户端)。 我目前的解决方案是基于MapReduce作业,没有Reduce部分。我用于读取文本文
-
Jetty 中的慢速传输,在特定缓冲区大小下使用分块传输编码 我正在调查 Jetty 6.1.26 的性能问题。Jetty似乎使用 ,并且根据所使用的缓冲区大小,在本地传输时这可能会非常慢。 请注意,我绝不是Jetty的专家。我在诊断Hadoop 0.20.203.0中的性能问题时偶然发
-
Hadoop,Mahout实时处理替代方案 我打算在我的项目中使用hadoop作为“计算集群”。然而,然后我读到Hadoop没有用于实时系统,因为与工作启动相关的开销。我正在寻找可以以这种方式使用的解决方案 - 可以轻松地扩展到多台计
标签