Java OutOfMemory读取大型文本文件时出错

2022-09-02 11:08:57

我是Java的新手,正在阅读非常大的文件,需要一些帮助来理解问题并解决问题。我们有一些遗留代码,必须对其进行优化才能使其正常运行。文件大小只能从 10mb 到 10gb 不等。只有当文件开始超过800mb大小时,才会出现问题。

InputStream inFileReader = channelSFtp.get(path); // file reading from ssh.
byte[] localbuffer = new byte[2048];
ByteArrayOutputStream bArrStream = new ByteArrayOutputStream();

int i = 0;
while (-1 != (i = inFileReader.read(buffer))) {
bArrStream.write(localbuffer, 0, i);
}

byte[] data = bArrStream.toByteArray();
inFileReader.close();
bos.close();

我们收到错误

java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Arrays.java:2271)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:113)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:140)

任何帮助将不胜感激?


答案 1

尝试使用java.nio.MappedByteBuffer

http://docs.oracle.com/javase/7/docs/api/java/nio/MappedByteBuffer.html

您可以将文件的内容映射到内存上,而无需手动复制。高级操作系统提供内存映射,Java具有API来利用该功能。

如果我的理解是正确的,内存映射不会将文件的全部内容加载到内存中(意思是“根据需要部分加载和卸载”),所以我想10GB的文件不会占用你的内存。


答案 2

即使您可以增加JVM内存限制,也是不必要的,并且分配像10GB这样的巨大内存来处理文件听起来有点过分和资源密集。

目前,您正在使用“ByteArrayOutputStream”,它保留了一个内部存储器来保存数据。代码中的以下行不断将上次读取的 2KB 文件块追加到此缓冲区的末尾:

bArrStream.write(localbuffer, 0, i);

bArrStream 不断增长,最终内存不足。

相反,您应该重新组织算法并以流式处理方式处理文件:

InputStream inFileReader = channelSFtp.get(path); // file reading from ssh.
byte[] localbuffer = new byte[2048];

int i = 0;
while (-1 != (i = inFileReader.read(buffer))) {
    //Deal with the current read 2KB file chunk here
}

inFileReader.close();