增量读取大文件的最快方法

2022-09-02 11:48:15

当给定一个MAX_BUFFER_SIZE缓冲区,以及一个远远超过它的文件时,如何:

  1. 以MAX_BUFFER_SIZE块的形式读取文件?
  2. 尽快完成

我尝试使用NIO

    RandomAccessFile aFile = new RandomAccessFile(fileName, "r");
    FileChannel inChannel = aFile.getChannel();

    ByteBuffer buffer = ByteBuffer.allocate(CAPARICY);

    int bytesRead = inChannel.read(buffer);

    buffer.flip();

        while (buffer.hasRemaining()) {
            buffer.get();
        }

        buffer.clear();
        bytesRead = inChannel.read(buffer);

    aFile.close();

和常规 IO

    InputStream in = new FileInputStream(fileName);

    long length = fileName.length();

    if (length > Integer.MAX_VALUE) {
        throw new IOException("File is too large!");
    }

    byte[] bytes = new byte[(int) length];

    int offset = 0;

    int numRead = 0;

    while (offset < bytes.length
            && (numRead = in.read(bytes, offset, bytes.length - offset)) >= 0) {
        offset += numRead;
    }

    if (offset < bytes.length) {
        throw new IOException("Could not completely read file " + fileName);
    }

    in.close();

事实证明,常规IO在与NIO相同的操作方面速度快了约100倍。我错过了什么吗?这是意料之中的吗?有没有一种更快的方法来读取缓冲区块中的文件?

最终,我正在处理一个大文件,我没有内存来一次读取所有内容。相反,我想在块中增量读取它,然后将其用于处理。


答案 1

如果你想让你的第一个示例更快

FileChannel inChannel = new FileInputStream(fileName).getChannel();
ByteBuffer buffer = ByteBuffer.allocateDirect(CAPACITY);

while(inChannel.read(buffer) > 0)
    buffer.clear(); // do something with the data and clear/compact it.

inChannel.close();

如果你想让它更快。

FileChannel inChannel = new RandomAccessFile(fileName, "r").getChannel();
MappedByteBuffer buffer = inChannel.map(FileChannel.MapMode.READ_ONLY, 0, inChannel.size());
// access the buffer as you wish.
inChannel.close();

对于大小不超过 2 GB 的文件,这可能需要 10 - 20 微秒。


答案 2

假设您需要一次将整个文件读取到内存中(就像您当前所做的那样),那么读取较小的块和NIO都不会在这里为您提供帮助。

事实上,您可能最好阅读较大的块 - 您的常规IO代码会自动为您完成。

您的 NIO 代码当前速度较慢,因为您一次只能读取一个字节(使用 )。buffer.get();

如果你想在块中处理 - 例如,在流之间传输 - 这里有一个标准的方法,没有NIO:

InputStream is = ...;
OutputStream os = ...;

byte buffer[] = new byte[1024];
int read;
while((read = is.read(buffer)) != -1){
    os.write(buffer, 0, read);
}

这使用的缓冲区大小仅为 1 KB,但可以传输无限量的数据。

(如果你用你实际想要在功能层面上做的事情的细节来扩展你的答案,我可以进一步改进这个答案。