读取文件中的所有文本
Java 11 添加了 readString() 方法,用于读取小文件作为 ,保留行终止符:String
String content = Files.readString(path, StandardCharsets.US_ASCII);
对于 Java 7 和 11 之间的版本,这里有一个紧凑、健壮的成语,用一个实用程序方法包起来:
static String readFile(String path, Charset encoding)
throws IOException
{
byte[] encoded = Files.readAllBytes(Paths.get(path));
return new String(encoded, encoding);
}
从文件中读取文本行
Java 7 添加了一种方便的方法,可以将文件读取为文本行,表示为 .这种方法是“有损的”,因为线分隔符是从每行的末尾剥离的。List<String>
List<String> lines = Files.readAllLines(Paths.get(path), encoding);
Java 8 添加了 Files.lines()
方法来生成 .同样,这种方法是有损的,因为线分隔符被剥离了。如果在读取文件时遇到 ,则会将其包装在 UncheckEDIOException
中,因为 不接受引发已检查异常的 lambda。Stream<String>
IOException
Stream
try (Stream<String> lines = Files.lines(path, encoding)) {
lines.forEach(System.out::println);
}
这确实需要一个 close()
调用;这在API上记录得很差,我怀疑很多人甚至没有注意到有一种方法。请务必使用 ARM 块,如下所示。Stream
Stream
close()
如果您使用的是文件以外的源,则可以改用 lines()
方法。BufferedReader
内存利用率
第一种方法保留换行符,可以暂时需要数倍于文件大小的内存,因为在短时间内,原始文件内容(字节数组)和解码字符(每个字符都是16位,即使文件中编码为8位)同时驻留在内存中。最安全的方法是应用于您知道相对于可用内存较小的文件。
第二种方法(读取行)通常具有更高的内存效率,因为用于解码的输入字节缓冲区不需要包含整个文件。但是,它仍然不适合相对于可用内存非常大的文件。
要读取大文件,您需要为程序设计不同的设计,从流中读取一大块文本,对其进行处理,然后转到下一个,重用相同的固定大小的内存块。在这里,“大”取决于计算机规格。如今,此阈值可能是数千兆字节的RAM。第三种方法,使用a是执行此操作的一种方法,如果你的输入“记录”碰巧是单独的行。(使用 的方法与此方法在程序上等效。Stream<String>
readLine()
BufferedReader
字符编码
原始帖子中的示例中缺少的一件事是字符编码。在一些特殊情况下,平台默认值是您想要的,但它们很少见,您应该能够证明您的选择是合理的。
类
为所有 Java 运行时所需的编码定义了一些常量:
String content = readFile("test.txt", StandardCharsets.UTF_8);
平台默认值可从 Charset
类本身获得:
String content = readFile("test.txt", Charset.defaultCharset());
注意:这个答案在很大程度上取代了我的Java 6版本。Java 7 的实用程序安全地简化了代码,而使用映射字节缓冲区的旧答案可防止删除读取的文件,直到映射的缓冲区被垃圾回收。您可以通过此答案上的“编辑”链接查看旧版本。