如何在没有缓存的情况下测量文件读取速度?

2022-09-03 02:54:57

我的java程序通过读取一些文件花费了大部分时间,并且我想优化它,例如,通过使用并发,预取,内存映射文件或其他方式。

在没有基准测试的情况下进行优化是无稽之谈,所以我进行基准测试。但是,在基准测试期间,整个文件内容将缓存在RAM中,这与实际运行不同。因此,基准测试的运行时间要小得多,并且很可能与现实无关。

我需要以某种方式告诉操作系统(Linux)不要缓存文件内容,或者最好在每次基准测试运行之前清除缓存。或者可能消耗大部分可用RAM(32 GB),因此只有一小部分文件内容适合。怎么办?

我正在使用卡尺进行基准测试,但在这种情况下,我认为它没有必要(它绝不是一个微型板凳标记),我不确定这是一个好主意。


答案 1

清除 Linux 文件缓存

sync && echo 1 > /proc/sys/vm/drop_caches

创建一个使用所有 RAM 的大文件

dd if=/dev/zero of=dummyfile bs=1024 count=LARGE_NUMBER

(完成后不要忘记删除)。dummyfile


答案 2

您可以创建一个非常大的文件,然后将其删除。这将清除磁盘缓存。

测试性能的另一种方法是读取大于主内存的文件。

无论哪种方式,您测试的是硬件的性能。为了改善这一点,你需要改进你的硬件,你在软件中能做的只有这么多。例如,多个线程不会使您的磁盘旋转得更快。;)


视窗 NT http://research.microsoft.com/pubs/68479/seqio.doc

执行顺序扫描时,NT 会发出 64KB 的预取请求

从 Linux http://www.ece.eng.wayne.edu/~sjiang/Tsinghua-2010/linux-readahead.pdf

顺序预取,在 Linux 中也称为预读,是一种广泛部署的技术,用于弥合存储设备特征与应用程序使用方式低效之间的巨大差距。