并发读取文件(首选 java)
2022-09-01 14:30:57
我有一个大文件,需要几个小时来处理。因此,我正在考虑尝试估计块并并行读取块。
是否可以对单个文件进行并发读取?我已经看过两者,但基于其他帖子,我不确定这种方法是否有效。RandomAccessFile
nio.FileChannel
我有一个大文件,需要几个小时来处理。因此,我正在考虑尝试估计块并并行读取块。
是否可以对单个文件进行并发读取?我已经看过两者,但基于其他帖子,我不确定这种方法是否有效。RandomAccessFile
nio.FileChannel
这里最重要的问题是您的案例中的瓶颈是什么。
如果瓶颈是您的磁盘IO,那么您在软件部分就无能为力了。并行计算只会使事情变得更糟,因为同时从不同部分读取文件会降低磁盘性能。
如果瓶颈是处理能力,并且您有多个 CPU 内核,则可以利用启动多个线程来处理文件的不同部分的优势。您可以安全地创建多个或多个 s 来并行读取文件的不同部分(只要您没有超出操作系统对打开文件数的限制)。您可以将工作分成多个任务并并行运行它们,如以下示例所示:InputStream
Reader
import java.io.*;
import java.util.*;
import java.util.concurrent.*;
public class Split {
private File file;
public Split(File file) {
this.file = file;
}
// Processes the given portion of the file.
// Called simultaneously from several threads.
// Use your custom return type as needed, I used String just to give an example.
public String processPart(long start, long end)
throws Exception
{
InputStream is = new FileInputStream(file);
is.skip(start);
// do a computation using the input stream,
// checking that we don't read more than (end-start) bytes
System.out.println("Computing the part from " + start + " to " + end);
Thread.sleep(1000);
System.out.println("Finished the part from " + start + " to " + end);
is.close();
return "Some result";
}
// Creates a task that will process the given portion of the file,
// when executed.
public Callable<String> processPartTask(final long start, final long end) {
return new Callable<String>() {
public String call()
throws Exception
{
return processPart(start, end);
}
};
}
// Splits the computation into chunks of the given size,
// creates appropriate tasks and runs them using a
// given number of threads.
public void processAll(int noOfThreads, int chunkSize)
throws Exception
{
int count = (int)((file.length() + chunkSize - 1) / chunkSize);
java.util.List<Callable<String>> tasks = new ArrayList<Callable<String>>(count);
for(int i = 0; i < count; i++)
tasks.add(processPartTask(i * chunkSize, Math.min(file.length(), (i+1) * chunkSize)));
ExecutorService es = Executors.newFixedThreadPool(noOfThreads);
java.util.List<Future<String>> results = es.invokeAll(tasks);
es.shutdown();
// use the results for something
for(Future<String> result : results)
System.out.println(result.get());
}
public static void main(String argv[])
throws Exception
{
Split s = new Split(new File(argv[0]));
s.processAll(8, 1000);
}
}
您可以并行读取大文件,前提是您有多个独立的自旋。例如,如果您有一个 Raid 0 + 1 剥离的文件系统,则可以通过触发对同一文件的多个并发读取来查看性能改进。
但是,如果您有一个组合文件系统,如Raid 5或6或普通的单个磁盘。按顺序读取文件很可能是从该磁盘读取的最快方法。注意:操作系统足够智能,当它看到您正在按顺序读取时,可以预取读取,因此使用额外的线程来执行此操作不太可能有所帮助。
即使用多个线程不会使您的磁盘更快。
如果要更快地从磁盘读取,请使用更快的驱动器。典型的 SATA 硬盘可以读取大约 60 MB/秒并执行 120 IOPS。典型的 SATA SSD 驱动器可以以大约 400 MB/s 的速度读取并执行 80,000 IOPS,而典型的 PCI SSD 可以以 900 MB/s 的速度读取并执行 230,000 IOPS。