解释器如何解释代码?

为了简单起见,想象一下这个场景,我们有一个2位计算机,它有一对2位寄存器,称为r1和r2,并且只能使用即时寻址。

假设位序列 00 表示添加到我们的 cpu。01 表示将数据移动到 r1,10 表示将数据移动到 r2。

因此,这台计算机有一个汇编语言和一个汇编程序,其中的示例代码将编写如下:

mov r1,1
mov r2,2
add r1,r2

简单地说,当我将此代码组装为本地语言时,文件将如下所示:

0101 1010 0001

上面的 12 位是以下各项的本机代码:

Put decimal 1 to R1, Put decimal 2 to R2, Add the data and store in R1. 

所以这基本上就是编译代码的工作方式,对吧?

假设有人为此架构实现了 JVM。在Java中,我将编写如下代码:

int x = 1 + 2;

JVM究竟将如何解释这段代码?我的意思是最终必须将相同的位模式传递给CPU,不是吗?所有CPU都有许多可以理解和执行的指令,毕竟它们只是一些位。假设编译后的Java字节码看起来像这样:

1111 1100 1001

或者别的什么..这是否意味着解释在执行时将此代码更改为 0101 1010 0001?如果是这样,它已经在本机代码中,那么为什么说JIT仅在多次后才启动?如果它没有将其完全转换为0101 1010 0001,那么它有什么作用?它如何使CPU进行添加?

也许我的假设中有一些错误。

我知道解释很慢,编译的代码更快但不可移植,虚拟机“解释”代码,但是如何解释呢?我正在寻找“如何准确/技术解释”完成。欢迎任何指针(如书籍或网页),而不是答案。


答案 1

不幸的是,您描述的CPU架构受到的限制太大,无法通过所有中间步骤真正清楚地说明这一点。相反,我将编写伪 C 和伪 x86 汇编程序,希望以一种清晰的方式编写,而不必非常熟悉 C 或 x86。

编译后的 JVM 字节码可能如下所示:

ldc 0 # push first first constant (== 1)
ldc 1 # push the second constant (== 2)
iadd # pop two integers and push their sum
istore_0 # pop result and store in local variable

解释器在数组中具有(二进制编码)这些指令,以及引用当前指令的索引。它还具有一个常量数组,以及一个用作堆栈的内存区域和一个用于局部变量的内存区域。然后解释器循环如下所示:

while (true) {
    switch(instructions[pc]) {
    case LDC:
        sp += 1; // make space for constant
        stack[sp] = constants[instructions[pc+1]];
        pc += 2; // two-byte instruction
    case IADD:
        stack[sp-1] += stack[sp]; // add to first operand
        sp -= 1; // pop other operand
        pc += 1; // one-byte instruction
    case ISTORE_0:
        locals[0] = stack[sp];
        sp -= 1; // pop
        pc += 1; // one-byte instruction
    // ... other cases ...
    }
}

C代码被编译成机器代码并运行。如您所见,它是高度动态的:每次执行该指令时,它都会检查每个字节码指令,并且所有值都通过堆栈(即RAM)。

虽然实际的加法本身可能发生在寄存器中,但围绕加法的代码与Java到机器代码编译器发出的代码完全不同。以下是C编译器可能将上述内容转换为(伪x86)的摘录:

.ldc:
incl %esi # increment the variable pc, first half of pc += 2;
movb %ecx, program(%esi) # load byte after instruction
movl %eax, constants(,%ebx,4) # load constant from pool
incl %edi # increment sp
movl %eax, stack(,%edi,4) # write constant onto stack
incl %esi # other half of pc += 2
jmp .EndOfSwitch

.addi
movl %eax, stack(,%edi,4) # load first operand
decl %edi # sp -= 1;
addl stack(,%edi,4), %eax # add
incl %esi # pc += 1;
jmp .EndOfSwitch

您可以看到,用于添加的操作数来自内存而不是硬编码,即使对于Java程序而言,它们是常量。这是因为对于口译员来说,它们不是恒定的。解释器编译一次,然后必须能够执行各种程序,而无需生成专用代码。

JIT 编译器的目的是:生成专用代码。JIT 可以分析堆栈用于传输数据的方式、程序中各种常量的实际值以及执行的计算顺序,以生成能够更有效地执行相同操作的代码。在我们的示例程序中,它将局部变量 0 分配给寄存器,将常量表的访问替换为将常量移动到寄存器 (),并将堆栈访问重定向到正确的机器寄存器。忽略通常可以完成的一些优化(复制传播,不断折叠和死代码消除),它最终可能会得到这样的代码:movl %eax, $1

movl %ebx, $1 # ldc 0
movl %ecx, $2 # ldc 1
movl %eax, %ebx # (1/2) addi
addl %eax, %ecx # (2/2) addi
# no istore_0, local variable 0 == %eax, so we're done

答案 2

并非所有计算机都具有相同的指令集。Java字节码是一种世界语 - 一种改善沟通的人工语言。Java VM 将通用 Java 字节码转换为运行它的计算机的指令集。

那么JIT是如何发挥作用的呢?JIT 编译器的主要目的是优化。通常有不同的方法将某段字节码转换为目标机器码。性能最理想的转换通常不明显,因为它可能取决于数据。程序在不执行算法的情况下分析算法的程度也存在限制 - 停止问题是众所周知的此类限制,但不是唯一的限制。因此,JIT编译器所做的是尝试不同的可能转换,并使用程序处理的实际数据来衡量它们的执行速度。因此,在JIT编译器找到完美的转换之前,需要多次执行。


推荐