为什么读取易失性并写入字段成员在 Java 中是不可扩展的?

2022-09-01 10:03:50

观察以下用Java编写的程序(随后是完整的可运行版本,但程序的重要部分在下面的代码段中):

import java.util.ArrayList;



/** A not easy to explain benchmark.
 */
class MultiVolatileJavaExperiment {

    public static void main(String[] args) {
        (new MultiVolatileJavaExperiment()).mainMethod(args);
    }

    int size = Integer.parseInt(System.getProperty("size"));
    int par = Integer.parseInt(System.getProperty("par"));

    public void mainMethod(String[] args) {
        int times = 0;
        if (args.length == 0) times = 1;
        else times = Integer.parseInt(args[0]);
        ArrayList < Long > measurements = new ArrayList < Long > ();

        for (int i = 0; i < times; i++) {
            long start = System.currentTimeMillis();
            run();
            long end = System.currentTimeMillis();

            long time = (end - start);
            System.out.println(i + ") Running time: " + time + " ms");
            measurements.add(time);
        }

        System.out.println(">>>");
        System.out.println(">>> All running times: " + measurements);
        System.out.println(">>>");
    }

    public void run() {
        int sz = size / par;
        ArrayList < Thread > threads = new ArrayList < Thread > ();

        for (int i = 0; i < par; i++) {
            threads.add(new Reader(sz));
            threads.get(i).start();
        }
        for (int i = 0; i < par; i++) {
            try {
                threads.get(i).join();
            } catch (Exception e) {}
        }
    }

    final class Foo {
        int x = 0;
    }

    final class Reader extends Thread {
        volatile Foo vfoo = new Foo();
        Foo bar = null;
        int sz;

        public Reader(int _sz) {
            sz = _sz;
        }

        public void run() {
            int i = 0;
            while (i < sz) {
                vfoo.x = 1;
                // with the following line commented
                // the scalability is almost linear
                bar = vfoo; // <- makes benchmark 2x slower for 2 processors - why?
                i++;
            }
        }
    }

}

说明: 该程序实际上非常简单。它从系统属性(通过标志传递给jvm)加载整数 - 这些是输入长度和稍后要使用的线程数。然后,它解析第一个命令行参数,该参数表示重复程序的时间(我们希望确保JIT已经完成了其工作并具有更可靠的测量结果)。sizepar-D

每次重复都会调用该方法。此方法只是启动线程,每个线程将执行一个迭代循环。线程体在类中定义。循环的每次重复都会读取一个易失性成员并分配给其公共字段。之后,再次读取并分配给非易失性字段。runparsize / parReadervfoo1vfoobar

请注意程序在大多数时候是如何执行循环体的,因此 in 线程是此基准测试的重点:run

    final class Reader extends Thread {
        volatile Foo vfoo = new Foo();
        Foo bar = null;
        int sz;

        public Reader(int _sz) {
            sz = _sz;
        }

        public void run() {
            int i = 0;
            while (i < sz) {
                vfoo.x = 1;
                // with the following line commented
                // the scalability is almost linear
                bar = vfoo; // <- makes benchmark 2x slower for 2 processors - why?
                i++;
            }
        }
    }

观察结果:在java -Xmx512m -Xms512m -server -Dsize=500000000 -Dpar=1 MultiVolatileJavaExperiment 10

Ubuntu Server 10.04.3 LTS
8 core Intel(R) Xeon(R) CPU  X5355  @2.66GHz
~20GB ram
java version "1.6.0_26"
Java(TM) SE Runtime Environment (build 1.6.0_26-b03)
Java HotSpot(TM) 64-Bit Server VM (build 20.1-b02, mixed mode)

我得到以下时间:

>>> All running times: [821, 750, 1011, 750, 758, 755, 1219, 751, 751, 1012]

现在,设置,我得到:-Dpar=2

>>> All running times: [1618, 380, 1476, 1245, 1390, 1391, 1445, 1393, 1511, 1508]

显然,由于某种原因,这不会扩展 - 我本来以为第二个输出的速度是原来的两倍(尽管它似乎确实在其中一个早期迭代中 - )。380ms

有趣的是,注释掉该行(甚至不应该是易失性写入),会产生以下时间设置为 。bar = vfoo-Dpar1,2,4,8

>>> All running times: [762, 563, 563, 563, 563, 563, 570, 566, 563, 563]
>>> All running times: [387, 287, 285, 284, 283, 281, 282, 282, 281, 282]
>>> All running times: [204, 146, 143, 142, 141, 141, 141, 141, 141, 141]
>>> All running times: [120, 78, 74, 74, 81, 75, 73, 73, 72, 71]

它可以完美地扩展。

分析:首先,这里没有垃圾回收周期(我也添加了检查)。-verbose:gc

我在 iMac 上也得到了类似的结果。

每个线程都写入自己的字段,并且属于不同线程的不同对象实例似乎不会在相同的缓存行中结束 - 添加更多成员以增加其大小不会更改度量值。每个线程对象实例都有足够的字段来填充 L1 高速缓存行。所以这可能不是内存问题。FooFoo

我的下一个想法是,可能正在做一些奇怪的事情,因为早期的迭代通常会在没有注释的版本中按预期进行缩放,所以我通过打印程序集来检查这一点(请参阅这篇文章,了解如何做到这一点)。JIT

java -Xmx512m -Xms512m -server -XX:CompileCommand=print,*Reader.run MultiVolatileJavaExperiment -Dsize=500000000 -Dpar=1 10

并且我为 中的 Jitted 方法的 2 个版本获取了这 2 个输出。注释的(可正确扩展的)版本:runReader

[Verified Entry Point]
  0xf36c9fac: mov    %eax,-0x3000(%esp)
  0xf36c9fb3: push   %ebp
  0xf36c9fb4: sub    $0x8,%esp
  0xf36c9fba: mov    0x68(%ecx),%ebx
  0xf36c9fbd: test   %ebx,%ebx
  0xf36c9fbf: jle    0xf36c9fec
  0xf36c9fc1: xor    %ebx,%ebx
  0xf36c9fc3: nopw   0x0(%eax,%eax,1)
  0xf36c9fcc: xchg   %ax,%ax
  0xf36c9fd0: mov    0x6c(%ecx),%ebp
  0xf36c9fd3: test   %ebp,%ebp
  0xf36c9fd5: je     0xf36c9ff7
  0xf36c9fd7: movl   $0x1,0x8(%ebp)

---------------------------------------------

  0xf36c9fde: mov    0x68(%ecx),%ebp
  0xf36c9fe1: inc    %ebx               ; OopMap{ecx=Oop off=66}
                                        ;*goto
                                        ; - org.scalapool.bench.MultiVolatileJavaExperiment$Reader::run@21 (line 83)

---------------------------------------------

  0xf36c9fe2: test   %edi,0xf7725000    ;   {poll}
  0xf36c9fe8: cmp    %ebp,%ebx
  0xf36c9fea: jl     0xf36c9fd0
  0xf36c9fec: add    $0x8,%esp
  0xf36c9fef: pop    %ebp
  0xf36c9ff0: test   %eax,0xf7725000    ;   {poll_return}
  0xf36c9ff6: ret    
  0xf36c9ff7: mov    $0xfffffff6,%ecx
  0xf36c9ffc: xchg   %ax,%ax
  0xf36c9fff: call   0xf36a56a0         ; OopMap{off=100}
                                        ;*putfield x
                                        ; - org.scalapool.bench.MultiVolatileJavaExperiment$Reader::run@15 (line 79)
                                        ;   {runtime_call}
  0xf36ca004: call   0xf6f877a0         ;   {runtime_call}

未注释(不可缩放,较慢)版本:bar = vfoo

[Verified Entry Point]
  0xf3771aac: mov    %eax,-0x3000(%esp)
  0xf3771ab3: push   %ebp
  0xf3771ab4: sub    $0x8,%esp
  0xf3771aba: mov    0x68(%ecx),%ebx
  0xf3771abd: test   %ebx,%ebx
  0xf3771abf: jle    0xf3771afe
  0xf3771ac1: xor    %ebx,%ebx
  0xf3771ac3: nopw   0x0(%eax,%eax,1)
  0xf3771acc: xchg   %ax,%ax
  0xf3771ad0: mov    0x6c(%ecx),%ebp
  0xf3771ad3: test   %ebp,%ebp
  0xf3771ad5: je     0xf3771b09
  0xf3771ad7: movl   $0x1,0x8(%ebp)

-------------------------------------------------

  0xf3771ade: mov    0x6c(%ecx),%ebp
  0xf3771ae1: mov    %ebp,0x70(%ecx)
  0xf3771ae4: mov    0x68(%ecx),%edi
  0xf3771ae7: inc    %ebx
  0xf3771ae8: mov    %ecx,%eax
  0xf3771aea: shr    $0x9,%eax
  0xf3771aed: movb   $0x0,-0x3113c300(%eax)  ; OopMap{ecx=Oop off=84}
                                        ;*goto
                                        ; - org.scalapool.bench.MultiVolatileJavaExperiment$Reader::run@29 (line 83)

-----------------------------------------------

  0xf3771af4: test   %edi,0xf77ce000    ;   {poll}
  0xf3771afa: cmp    %edi,%ebx
  0xf3771afc: jl     0xf3771ad0
  0xf3771afe: add    $0x8,%esp
  0xf3771b01: pop    %ebp
  0xf3771b02: test   %eax,0xf77ce000    ;   {poll_return}
  0xf3771b08: ret    
  0xf3771b09: mov    $0xfffffff6,%ecx
  0xf3771b0e: nop    
  0xf3771b0f: call   0xf374e6a0         ; OopMap{off=116}
                                        ;*putfield x
                                        ; - org.scalapool.bench.MultiVolatileJavaExperiment$Reader::run@15 (line 79)
                                        ;   {runtime_call}
  0xf3771b14: call   0xf70307a0         ;   {runtime_call}

两个版本之间的差异在 内。我希望在程序集中找到可能解释性能问题的同步指令 - 虽然很少有额外的指令,并且指令可能会影响绝对性能数字,但我不明白它们如何影响可伸缩性。---------shiftmovinc

因此,我怀疑这是某种与存储到类中的字段相关的内存问题。另一方面,我也倾向于相信JIT做了一些有趣的事情,因为在一次迭代中,测量的时间它应该的两倍。

谁能解释一下这里发生了什么?请准确无误,并附上支持您声明的参考资料。

谢谢!

编辑:

以下是快速(可扩展)版本的字节码:

public void run();
  LineNumberTable: 
   line 77: 0
   line 78: 2
   line 79: 10
   line 83: 18
   line 85: 24



  Code:
   Stack=2, Locals=2, Args_size=1
   0:   iconst_0
   1:   istore_1
   2:   iload_1
   3:   aload_0
   4:   getfield    #7; //Field sz:I
   7:   if_icmpge   24
   10:  aload_0
   11:  getfield    #5; //Field vfoo:Lorg/scalapool/bench/MultiVolatileJavaExperiment$Foo;
   14:  iconst_1
   15:  putfield    #8; //Field org/scalapool/bench/MultiVolatileJavaExperiment$Foo.x:I
   18:  iinc    1, 1
   21:  goto    2
   24:  return
  LineNumberTable: 
   line 77: 0
   line 78: 2
   line 79: 10
   line 83: 18
   line 85: 24

  StackMapTable: number_of_entries = 2
   frame_type = 252 /* append */
     offset_delta = 2
     locals = [ int ]
   frame_type = 21 /* same */

具有 以下功能的慢速(不可扩展)版本:bar = vfoo

public void run();
  LineNumberTable: 
   line 77: 0
   line 78: 2
   line 79: 10
   line 82: 18
   line 83: 26
   line 85: 32



  Code:
   Stack=2, Locals=2, Args_size=1
   0:   iconst_0
   1:   istore_1
   2:   iload_1
   3:   aload_0
   4:   getfield    #7; //Field sz:I
   7:   if_icmpge   32
   10:  aload_0
   11:  getfield    #5; //Field vfoo:Lorg/scalapool/bench/MultiVolatileJavaExperiment$Foo;
   14:  iconst_1
   15:  putfield    #8; //Field org/scalapool/bench/MultiVolatileJavaExperiment$Foo.x:I
   18:  aload_0
   19:  aload_0
   20:  getfield    #5; //Field vfoo:Lorg/scalapool/bench/MultiVolatileJavaExperiment$Foo;
   23:  putfield    #6; //Field bar:Lorg/scalapool/bench/MultiVolatileJavaExperiment$Foo;
   26:  iinc    1, 1
   29:  goto    2
   32:  return
  LineNumberTable: 
   line 77: 0
   line 78: 2
   line 79: 10
   line 82: 18
   line 83: 26
   line 85: 32

  StackMapTable: number_of_entries = 2
   frame_type = 252 /* append */
     offset_delta = 2
     locals = [ int ]
   frame_type = 29 /* same */

我越是尝试一下,在我看来,这与易失性完全无关 - 它与写入对象字段有关。我的直觉是,这在某种程度上是一个内存争用问题 - 缓存和错误共享的问题,尽管根本没有明确的同步。

编辑2:

有趣的是,像这样改变程序:

final class Holder {
    public Foo bar = null;
}

final class Reader extends Thread {
    volatile Foo vfoo = new Foo();
    Holder holder = null;
    int sz;

    public Reader(int _sz) {
        sz = _sz;
    }

    public void run() {
        int i = 0;
        holder = new Holder();
        while (i < sz) {
            vfoo.x = 1;
            holder.bar = vfoo;
            i++;
        }
    }
}

解决了缩放问题。显然,上面的对象是在线程启动后创建的,并且可能被分配到不同的内存段中,然后同时修改该内存段,而不是修改线程对象中的字段,后者在不同线程实例之间的内存中以某种方式“接近”。Holderbar


答案 1

这就是我认为正在发生的事情(请记住,我不熟悉HotSpot):

0xf36c9fd0: mov    0x6c(%ecx),%ebp    ; vfoo
0xf36c9fd3: test   %ebp,%ebp          ; vfoo is null?
0xf36c9fd5: je     0xf36c9ff7         ;   throw NullPointerException (I guess)
0xf36c9fd7: movl   $0x1,0x8(%ebp)     ; vfoo.x = 1
0xf36c9fde: mov    0x68(%ecx),%ebp    ; sz
0xf36c9fe1: inc    %ebx               ; i++
0xf36c9fe2: test   %edi,0xf7725000    ; safepoint on end of loop
0xf36c9fe8: cmp    %ebp,%ebx          ; i < sz?
0xf36c9fea: jl     0xf36c9fd0


0xf3771ad0: mov    0x6c(%ecx),%ebp          ; vfoo
0xf3771ad3: test   %ebp,%ebp                ; vfoo is null?
0xf3771ad5: je     0xf3771b09               ;   throw NullPointerException (I guess)
0xf3771ad7: movl   $0x1,0x8(%ebp)           ; vfoo.x = 1
0xf3771ade: mov    0x6c(%ecx),%ebp          ; \
0xf3771ae1: mov    %ebp,0x70(%ecx)          ; / bar = vfoo
0xf3771ae4: mov    0x68(%ecx),%edi          ; sz
0xf3771ae7: inc    %ebx                     ; i++
0xf3771ae8: mov    %ecx,%eax                ; 
0xf3771aea: shr    $0x9,%eax                ; ??? \ Probably replaced later
0xf3771aed: movb   $0x0,-0x3113c300(%eax)   ; ??? / by some barrier code?
0xf3771af4: test   %edi,0xf77ce000          ; safepoint
0xf3771afa: cmp    %edi,%ebx                ; i < sz ?
0xf3771afc: jl     0xf3771ad0               ;

我认为上面的代码代表障碍的原因是,当采用NullPointerException时,可扩展版本具有,它充当障碍,而不可扩展版本具有NOP。XCHG

其基本原理是,在线程的初始加载和加入线程之间需要有一个发生之前排序。在不稳定的情况下,屏障将在循环内部,因此它不需要在其他地方。我不明白的是,为什么不在循环中使用。也许是MFENCE支持的运行时检测?vfooXCHG


答案 2

让我们尝试让 JVM 表现得更“一致”。JIT编译器确实抛弃了测试运行的比较;因此,让我们使用 禁用 JIT 编译器。这肯定会带来性能下降,但将有助于消除JIT编译器优化的晦涩和影响。-Djava.compiler=NONE

垃圾回收引入了自己的一组复杂性。让我们通过使用 使用 串行垃圾回收器。我们还禁用显式垃圾回收并打开一些日志记录以查看何时执行垃圾回收:。最后,让我们使用 获得足够的堆分配。-XX:+UseSerialGC-verbose:gc -XX:+DisableExplicitGC-Xmx128m -Xms128m

现在我们可以使用以下方法运行测试:

java -XX:+UseSerialGC -verbose:gc -XX:+DisableExplicitGC -Djava.compiler=NONE -Xmx128m -Xms128m -server -Dsize=50000000 -Dpar=1 MultiVolatileJavaExperiment 10

多次运行测试表明结果非常一致(我在Ubuntu 10.04.3 LTS上使用Oracle Java 1.6.0_24-b07,使用Intel(R) Core(TM)2 Duo CPU P8700 @ 2.53GHz),平均约为2050毫秒。如果我注释掉这条线,我一直平均大约1280毫秒。使用结果运行测试,平均约 1350 毫秒,注释约为 1005 毫秒。bar = vfoo-Dpar=2bar = vfoo

+=========+======+=========+
| Threads | With | Without |
+=========+======+=========+
|    1    | 2050 |  1280   |
+---------+------+---------+
|    2    | 1350 |  1005   |
+=========+======+=========+

现在让我们看一下代码,看看我们是否可以发现多线程效率低下的任何原因。在 中,用适当的条件限定变量将有助于明确哪些变量是局部的:Reader.run()this

int i = 0;
while (i < this.sz) {
    this.vfoo.x = 1;
    this.bar = this.vfoo;
    i++;
}

首先要注意的是,循环包含四个通过 引用的变量。这意味着代码正在访问类的运行时常量池并执行类型检查(通过字节码指令)。让我们更改代码以尝试消除对运行时常量池的访问,看看我们是否获得任何好处。whilethisgetfield

final int mysz = this.sz;
int i = 0;
while (i < mysz) {
    this.vfoo.x = 1;
    this.bar = this.vfoo;
    i++;
}

在这里,我们使用一个局部变量来访问循环大小,并且只访问一次,以进行初始化。运行测试,使用两个线程,平均约1295毫秒;这是一个小小的好处,但仍然是一个。myszszthis

看看循环,我们真的需要引用两次吗?两个易失性读取创建虚拟机(以及基础硬件)需要管理的两个同步边缘。假设我们确实希望在循环开始时有一个同步边缘,而不需要两个,我们可以使用以下方法:whilethis.vfoowhile

final int mysz = this.sz;
Foo myvfoo = null;
int i = 0;
while (i < mysz) {
    myvfoo = this.vfoo;
    myvfoo.x = 1;
    this.bar = myvfoo;
    i++;
}

这平均约为1122毫秒;还在好转。那么这个参考呢?由于我们正在谈论多线程,假设循环中的计算是我们希望从中获得多线程收益的,也是我们将结果传达给其他人的方式。我们真的不想在循环完成之前进行设置。this.barwhilethis.barthis.barwhile

final int mysz = this.sz;
Foo myvfoo = null;
Foo mybar = null;
int i = 0;
while (i < mysz) {
    myvfoo = this.vfoo;
    myvfoo.x = 1;
    mybar = myvfoo;
    i++;
}
this.bar = mybar;

这给了我们平均大约857毫秒。循环中仍然有最终的引用。再次假设循环是我们想要的多线程收益,让我们将其移出循环。this.vfoowhilewhilethis.vfoowhile

final int mysz = this.sz;
final Foo myvfoo = this.vfoo;
Foo mybar = null;
int i = 0;
while (i < mysz) {
    myvfoo.x = 1;
    mybar = myvfoo;
    i++;
}
final Foo vfoocheck = this.vfoo;
if (vfoocheck != myvfoo) {
    System.out.println("vfoo changed from " + myvfoo + " to " + vfoocheck);
}
this.bar = mybar;

现在我们平均大约502毫秒;单线程测试平均约为 900 毫秒。

那么这告诉我们什么呢?通过将非局部变量引用外推到循环之外,在单线程和双线程测试中都具有显著的性能优势。的原始版本是测量访问非局部变量的成本 50,000,000 次,而最终版本是测量访问局部变量 50,000,000 次的成本。通过使用局部变量,可以增加 Java 虚拟机和底层硬件更有效地管理线程高速缓存的可能性。whileMultiVolatileJavaExperiment

最后,让我们使用正常运行测试(注意,使用 500,000,000 循环大小而不是 50,000,000):

java -Xmx128m -Xms128m -server -Dsize=500000000 -Dpar=2 MultiVolatileJavaExperiment 10

原始版本平均约为 1100 毫秒,修改后的版本平均约为 10 毫秒。


推荐