为什么select()在我的程序中消耗如此多的CPU时间?

2022-09-01 10:01:29

我有几个使用MINA的Java应用程序,它们都使用20个MINA线程。一个应用程序为大约 10,000 个并发连接提供服务,这些连接通常处于空闲状态,但有时会接收输入。对于该应用程序来说,20可能是一个合理的线程数,尽管我还没有完全分析它(这个问题正在得到)。另一个应用程序一次只提供大约15个连接,但启动IO工作,因此它们非常繁忙,并且无论如何都有20个MINA线程,这显然太多了。

令我奇怪的是,这两个应用程序总是将大约 30%(有时高达 60%) 的 CPU 时间投入到 MINA 的 select() 方法中,并在 VisualVM 中进行分析。调用堆栈如下所示:

java.lang.Thread.State: RUNNABLE
at sun.nio.ch.EPollArrayWrapper.epollWait(Native Method)
at sun.nio.ch.EPollArrayWrapper.poll(EPollArrayWrapper.java:228)
at sun.nio.ch.EPollSelectorImpl.doSelect(EPollSelectorImpl.java:81)
at sun.nio.ch.SelectorImpl.lockAndDoSelect(SelectorImpl.java:87)
- locked <40ca5d54> (a sun.nio.ch.Util$2)
- locked <24649fe8> (a java.util.Collections$UnmodifiableSet)
- locked <3fae9662> (a sun.nio.ch.EPollSelectorImpl)
at sun.nio.ch.SelectorImpl.select(SelectorImpl.java:98)
at org.apache.mina.transport.socket.nio.NioProcessor.select(NioProcessor.java:72)
at org.apache.mina.core.polling.AbstractPollingIoProcessor$Processor.run(AbstractPollingIoProcessor.java:1093)
at org.apache.mina.util.NamePreservingRunnable.run(NamePreservingRunnable.java:64)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
at java.lang.Thread.run(Thread.java:722)

它似乎是基于一个繁忙的民意调查,这对我来说听起来真的不对劲。

当我看到这么高的数字时,我应该担心吗?这是什么原因造成的?这是我需要优化的东西,还是更类似于睡眠或闲置程序?如果它更像是睡眠例程,它是否以某种方式被安排为比其他CPU工作更低的优先级?

更新:此线程似乎是相同的问题。我听从了它的建议,现在正在运行Java 1.7.0_45,但我仍然看到在具有10k连接的应用程序中占用高达90%的CPU时间。select

我们使用的是MINA 2.0.4,这意味着此相关错误已修复。


答案 1

不幸的是,这是对数字的错误解释。

我曾多次遇到这种情况(并且也问过一个关于stackoverflow的问题)。

主要原因是VisualVM没有显示正确的CPU时间。它显示处于状态的线程时间的百分比。但从文档上:RUNNINGThread.State

可运行线程的线程状态。处于可运行状态的线程正在 Java 虚拟机中执行,但它可能正在等待来自操作系统的其他资源,如处理器。

这正是正在发生的事情。实际上,线程在操作系统调用中被阻塞。在Linux盒子上,有几种方法可以确认情况确实如此。epoll_wait()

strace'ing 线程

$ strace -tttT -f -p [thread-id]

可以从输出中获取线程 ID:jstack

$ jstack [java-pid]
[...]
"Netty Builtin Server 1" #17 prio=5 os_prio=31 tid=0x00000001013dd800 nid=0xe12f runnable [0x0000700001fe4000]
  java.lang.Thread.State: RUNNABLE
  at sun.nio.ch.KQueueArrayWrapper.kevent0(Native Method)
  at sun.nio.ch.KQueueArrayWrapper.poll(KQueueArrayWrapper.java:198)
[...]

在这种情况下,线程 id 是 (应转换为十进制)。您将看到线程在调用中的大多数时间。0xe12fepoll_wait()

pidstat螺纹

$ pidstat -tu -p [java-pid] | grep [thread pid]

您将看到此线程的系统和用户CPU时间较低,这意味着它不会消耗CPU。

轮询线程状态使用ps

$ ps -eL -o pid,tid,state | grep [thread-id]

你会看到大多数时候线程处于状态或(可中断睡眠)而不是(可运行)。SSlR

最后,如果服务没有操作问题,则不必担心这一点。


答案 2

首先,两个应用程序都有相同的问题,这是件好事;它可能表明问题出在JVM或操作系统上,而不是您的应用程序:-)

正如jzd所提到的,有问题。{各种版本的Java}x{各种平台,内核版本}的乘法使它成为一个无处不在的问题。我希望这些作品之一能为您服务:nio.select()

  • 如果您使用的是Linux,请尝试使用内核,以防万一您使用的是Linux。2.62.4

    ,假设该 bug 类似于:http://bugs.sun.com/view_bug.do?bug_id=6670302

  • 使用较旧版本的JRE / JDK,而不是最新版本!

    ,即返回到 JRE 6 / JDK 6 而不是 7。

尝试

  • {旧版本的 JRE (6),旧版本的 Linux 内核} 或
  • {JRE 的较新版本 (7),较新版本的 Linux 内核}

而不是像{旧,较新}或{较新,较旧}那样将它们混合在一起。


推荐