hdfs
-
HDFS 目录中的文件计数 在Java代码中,我想连接到HDFS中的目录,了解该目录中的文件数量,获取它们的名称并希望读取它们。我已经可以读取文件,但我无法弄清楚如何计算目录中的文件并像普通目录一样获取文件名
-
从Java写入HDFS,得到“只能复制到0个节点,而不是最小复制”更新 我已经下载并启动了Cloudera的Hadoop Demo VM for CDH4(运行Hadoop 2.0.0)。我正在尝试编写一个 Java 程序,该程序将从我的 Windows 7 计算机(运行 VM 的同一台计算机/操作系统)运行。我有一个示例程序
-
将数据追加到HDFS Java中的现有文件 我在将数据附加到HDFS中的现有文件时遇到问题。我希望如果文件存在,则附加一行,如果没有,请使用给定的名称创建一个新文件。 这是我写入HDFS的方法。 第一个参数是文件的名称,第二
-
Reading HDFS and local files in Java I want to read file paths irrespective of whether they are HDFS or local. Currently, I pass the local paths with the prefix file:// and HDFS paths with the prefix hdfs:// and write some code as the following From here I use the API's of the FileSystem t
-
使用Apache Spark和Java将CSV解析为DataFrame/DataSet将 Spark 2.x(及更高版本)与 Java 结合使用现在,我们可以通过 2 种方式聚合数据 我是 Spark 的新手,我想使用 group-by & reduce 从 CSV 中找到以下内容(一行由使用): 有没有办法使用转换和操作来实现这一点。还是我们应该进行RDD手术?
-
Hadoop的文件系统中的通配符列出了API调用上下文目标问题到目前为止我发现了什么问题更新 为了能够在列出的路径中使用通配符(globs),只需使用显然是最好的API方法。 在我上面给出的示例中,代码最终如下所示: 这是到目前为止我能想到的最好看和性能最好的代码,但性能仍
-
使用Java API在Hadoop中移动文件? 我想使用Java API在HDFS中移动文件。我想不出一种方法来做到这一点。FileSystem 类似乎只想允许在本地文件系统之间来回移动。但我想将它们保留在HDFS中并将它们移动到那里。 我错过了一些基本
-
端口 9000 上的 hadoop 连接被拒绝 我想在伪分布式模式下设置一个hadoop集群进行开发。尝试启动 hadoop 群集失败,因为端口 9000 上的连接被拒绝。 这些是我的配置(非常标准): 站点核心.xml: 使用不返回任何内容,假设毕
-
Hadoop:如何将化简器输出合并到单个文件中? (10个答案) 8年前关闭。 我知道shell中的“getmerge”命令可以完成这项工作。 但是,如果我想在通过JAVA的HDFS API完成作业后合并这些输出,我该
-
从 Spark 中的压缩中读取整个文本文件 我有以下问题:假设我有一个包含压缩目录的目录,其中包含存储在HDFS上的多个文件。我想创建一个由一些T类型的对象组成的RDD,即: 我在这里走在正确的道路上吗?如果是这样,我该如何
标签