Java 拒绝启动 - 无法为对象堆保留足够的空间
背景
我们有一个大约20个Linux刀片的池。有些人在运行Suse,有些人在运行Redhat。所有共享 NAS 空间,其中包含以下 3 个文件夹:
- /NAS/app/java - 指向 Java JDK 安装的符号链接。当前版本 1.5.0_10
- /NAS/app/lib - 指向我们应用程序的某个版本的符号链接。
- /NAS/data - 写入输出的目录
我们所有的机器都有2个处理器(超线程),具有4gb的物理内存和4gb的交换空间。我们将每台计算机在给定时间可以处理的“作业”数量限制为6(此数字可能需要更改,但这不会进入当前问题,因此请暂时忽略它)。
我们的一些作业将最大堆大小设置为 512mb,其他一些作业保留的最大堆大小为 2048mb。同样,我们意识到,如果在同一台计算机上启动了6个作业,堆大小设置为2048,我们可以检查可用内存,但据我们所知,这还没有发生。
问题
有时,作业会立即失败,并显示以下消息:
Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine.
我们过去常常将此归因于在同一台计算机上同时运行的太多作业。问题很少发生(也许每月一次),我们只需重新启动它,一切都会好起来的。
问题最近变得更糟。我们所有请求最大堆大小为 2048m 的作业几乎每次都会立即失败,并且需要在完成之前重新启动几次。
我们已经尝试了单独的机器,并尝试手动执行它们,结果相同。
调试
事实证明,问题只存在于我们的SuSE盒子上。它更频繁地发生的原因是因为我们一直在添加更多的计算机,而新的计算机是SuSE。
SuSE 框中的“cat /proc/version”为我们提供了:
Linux version 2.6.5-7.244-bigsmp (geeko@buildhost) (gcc version 3.3.3 (SuSE Linux)) #1 SMP Mon Dec 12 18:32:25 UTC 2005
RedHat 框中的“cat /proc/version”会给我们:
Linux version 2.4.21-32.0.1.ELsmp (bhcompile@bugs.build.redhat.com) (gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-52)) #1 SMP Tue May 17 17:52:23 EDT 2005
“uname -a”在这两种类型的机器上都为我们提供了以下功能:
UTC 2005 i686 i686 i386 GNU/Linux
计算机上没有作业正在运行,并且没有其他进程正在占用大量内存。当前运行的所有进程可能总共使用 100mb。
“顶部”当前显示以下内容:
Mem: 4146528k total, 3536360k used, 610168k free, 132136k buffers
Swap: 4194288k total, 0k used, 4194288k free, 3283908k cached
“vmstat”当前显示以下内容:
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy id wa
0 0 0 610292 132136 3283908 0 0 0 2 26 15 0 0 100 0
如果我们使用以下命令行(Max Heap 为 1850mb)启动作业,则启动良好:
java/bin/java -Xmx1850M -cp helloworld.jar HelloWorld
Hello World
如果我们将最大堆大小提高到1875mb,它将失败:
java/bin/java -Xmx1875M -cp helloworld.jar HelloWorld
Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine.
很明显,当前使用的内存是用于缓冲/缓存的,这就是为什么显示为“可用”的内存如此之少的原因。目前尚不清楚的是,为什么会有一条神奇的1850mb行,任何更高的值都意味着Java无法启动。
任何解释将不胜感激。