让 ANTLR 生成脚本解释器?

假设我有以下Java API,所有打包为:blocks.jar

public class Block {
    private Sting name;
    private int xCoord;
    private int yCoord;

    // Getters, setters, ctors, etc.

    public void setCoords(int x, int y) {
        setXCoord(x);
        setYCoord(y);
    }
}

public BlockController {
    public static moveBlock(Block block, int newXCoord, int newYCoord) {
        block.setCooords(newXCoord, newYCoord);
    }

    public static stackBlocks(Block under, Block onTop) {
        // Stack "onTop" on top of "under".
        // Don't worry about the math here, this is just for an example.
        onTop.setCoords(under.getXCoord() + onTop.getXCoord(), under.getYCoord());
    }
}

同样,不要担心数学和(x,y)坐标不能准确表示3D空间中的块的事实。关键是我们有Java代码,编译为JAR,对块执行操作。我现在想构建一种轻量级的脚本语言,允许非程序员调用各种块API方法并操作块,并且我想用ANTLR实现其解释器(最新版本为4.3)。

脚本语言,我们称之为BlockSpeak,可能看起来像这样:

block A at (0, 10)   # Create block "A" at coordinates (0, 10)
block B at (0, 20)   # Create block "B" at coordinates (0, 20)
stack A on B         # Stack block A on top of block B

这可能等效于以下 Java 代码:

Block A, B;
A = new Block(0, 10);
B = new Block(0, 20);
BlockController.stackBlocks(B, A);

因此,ANTLR生成的解释器将采用脚本作为输入,并使用此脚本中的命令调用API操作。我阅读了优秀的简单示例,它使用ANTLR创建了一个简单的计算器。但是,在该链接中,有一个 ExpParser 类,其中包含一个方法:*.blockspeakblocks.jareval()

ExpParser parser = new ExpParser(tokens);
parser.eval();

这里的问题是,在计算器的情况下,表示要计算的数学表达式,并返回表达式的计算。在解释器的情况下,将表示我的BlockSpeak脚本,但调用不应该评估任何东西,它应该知道如何将各种BlockSpeak命令映射到Java代码:tokenseval()tokenseval()

BlockSpeak Command:             Java code:
==========================================
block A at (0, 10)      ==>     Block A = new Block(0, 10);
block B at (0, 20)      ==>     Block B = new Block(0, 20);
stack A on B            ==>     BlockController.stackBlocks(B, A);

所以我的问题是,我在哪里执行这个“映射”?换句话说,当ANTLR在BlockSpeak脚本中遇到特定语法时,我如何指示ANTLR调用各种代码片段(打包在里面)?更重要的是,有人可以给我一个伪代码的例子吗?blocks.jar


答案 1

我会简单地动态评估脚本,而不是生成需要再次编译的Java源文件。

在 ANTLR 4 中,强烈建议将语法和目标特定代码彼此分开,并将任何目标特定代码放在树侦听器或访问者中。

我将快速演示如何使用侦听器。

示例输入的语法可能如下所示:

文件:blockspeak/BlockSpeak.g4

grammar BlockSpeak;

parse
 : instruction* EOF
 ;

instruction
 : create_block
 | stack_block
 ;

create_block
 : 'block' NAME 'at' position
 ;

stack_block
 : 'stack' top=NAME 'on' bottom=NAME
 ;

position
 : '(' x=INT ',' y=INT ')'
 ;

COMMENT
 : '#' ~[\r\n]* -> skip
 ;

INT
 : [0-9]+
 ;

NAME
 : [a-zA-Z]+
 ;

SPACES
 : [ \t\r\n] -> skip
 ;

一些支持 Java 的类:

文件:blockspeak/Main.java

package blockspeak;

import org.antlr.v4.runtime.ANTLRInputStream;
import org.antlr.v4.runtime.CommonTokenStream;
import org.antlr.v4.runtime.tree.ParseTreeWalker;

import java.util.Scanner;

public class Main {

    public static void main(String[] args) throws Exception {

        Scanner keyboard = new Scanner(System.in);

        // Some initial input to let the parser have a go at.
        String input = "block A at (0, 10)   # Create block \"A\" at coordinates (0, 10)\n" +
                "block B at (0, 20)   # Create block \"B\" at coordinates (0, 20)\n" +
                "stack A on B         # Stack block A on top of block B";

        EvalBlockSpeakListener listener = new EvalBlockSpeakListener();

        // Keep asking for input until the user presses 'q'.
        while(!input.equals("q")) {

            // Create a lexer and parser for `input`.
            BlockSpeakLexer lexer = new BlockSpeakLexer(new ANTLRInputStream(input));
            BlockSpeakParser parser = new BlockSpeakParser(new CommonTokenStream(lexer));

            // Now parse the `input` and attach our listener to it. We want to reuse 
            // the same listener because it will hold out Blocks-map.
            ParseTreeWalker.DEFAULT.walk(listener, parser.parse());

            // Let's see if the user wants to continue.
            System.out.print("Type a command and press return (q to quit) $ ");
            input = keyboard.nextLine();
        }

        System.out.println("Bye!");
    }
}

// You can place this Block class inside Main.java as well.
class Block {

    final String name;
    int x;
    int y;

    Block(String name, int x, int y) {
        this.name = name;
        this.x = x;
        this.y = y;
    }

    void onTopOf(Block that) {
        // TODO
    }
}

这个主类非常不言自明,带有内联注释。棘手的部分是听众应该是什么样子。好吧,这里是:

文件:blockspeak/EvalBlockSpeakListener.java

package blockspeak;

import org.antlr.v4.runtime.misc.NotNull;

import java.util.HashMap;
import java.util.Map;

/**
 * A class extending the `BlockSpeakBaseListener` (which will be generated
 * by ANTLR) in which we override the methods in which to create blocks, and
 * in which to stack blocks.
 */
public class EvalBlockSpeakListener extends BlockSpeakBaseListener {

    // A map that keeps track of our Blocks.
    private final Map<String, Block> blocks = new HashMap<String, Block>();

    @Override
    public void enterCreate_block(@NotNull BlockSpeakParser.Create_blockContext ctx) {

        String name = ctx.NAME().getText();
        Integer x = Integer.valueOf(ctx.position().x.getText());
        Integer y = Integer.valueOf(ctx.position().y.getText());

        Block block = new Block(name, x, y);

        System.out.printf("creating block: %s\n", name);

        blocks.put(block.name, block);
    }

    @Override
    public void enterStack_block(@NotNull BlockSpeakParser.Stack_blockContext ctx) {

        Block bottom = this.blocks.get(ctx.bottom.getText());
        Block top = this.blocks.get(ctx.top.getText());

        if (bottom == null) {
            System.out.printf("no such block: %s\n", ctx.bottom.getText());
        }
        else if (top == null) {
            System.out.printf("no such block: %s\n", ctx.top.getText());
        }
        else {
            System.out.printf("putting %s on top of %s\n", top.name, bottom.name);
            top.onTopOf(bottom);
        }
    }
}

上面的侦听器定义了 2 个方法,这些方法映射到以下解析器规则:

create_block
 : 'block' NAME 'at' position
 ;

stack_block
 : 'stack' top=NAME 'on' bottom=NAME
 ;

每当解析器“输入”这样的解析器规则时,就会调用侦听器内部的相应方法。因此,每当调用(解析器进入规则)时,我们都会创建(并保存)一个块,当调用时,我们检索操作中涉及的2个块,并将一个块堆叠在另一个块之上。enterCreate_blockcreate_blockenterStack_block

要查看上述 3 个类的实际效果,请将 ANTLR 4.4 下载到包含 和 文件的目录的目录中。blockspeak/.g4.java

打开控制台并执行以下 3 个步骤:

1. 生成 ANTLR 文件:

java -cp antlr-4.4-complete.jar org.antlr.v4.Tool blockspeak/BlockSpeak.g4 -package blockspeak

2. 编译所有 Java 源文件:

javac -cp ./antlr-4.4-complete.jar blockspeak/*.java

3. 运行主类:

3.1. Linux/Mac 3.2.窗户
java -cp .:antlr-4.4-complete.jar blockspeak.Main
java -cp .;antlr-4.4-complete.jar blockspeak.Main

下面是运行该类的示例会话:Main

bart@hades:~/Temp/demo$ java -cp .:antlr-4.4-complete.jar blockspeak.Main
creating block: A
creating block: B
putting A on top of B
Type a command and press return (q to quit) $ block X at (0,0)
creating block: X
Type a command and press return (q to quit) $ stack Y on X
no such block: Y
Type a command and press return (q to quit) $ stack A on X 
putting A on top of X
Type a command and press return (q to quit) $ q
Bye!
bart@hades:~/Temp/demo$ 

有关树侦听器的更多信息: https://theantlrguy.atlassian.net/wiki/display/ANTLR4/Parse+Tree+Listeners


答案 2

我个人会编写一个语法来为每个脚本生成一个Java程序,然后您可以编译(以及您的jar)并独立运行...即,一个两步过程。

例如,使用类似于以下简单语法的东西(我还没有测试过,我相信你需要扩展和适应),你可以将该示例中的语句替换为(也在整个过程中用“BlockSpeak”代替“Exp”),它应该吐出与脚本匹配的Java代码,你可以将其重定向到.java文件中, 编译(与jar一起)并运行。parser.eval()parser.program();stdout

BlockSpeak.g

grammar BlockSpeak;

program 
    @init { System.out.println("//import com.whatever.stuff;\n\npublic class BlockProgram {\n    public static void main(String[] args) {\n\n"); }
    @after { System.out.println("\n    } // main()\n} // class BlockProgram\n\n"); }
    : inss=instructions                         { if (null != $inss.insList) for (String ins : $inss.insList) { System.out.println(ins); } }
    ;

instructions returns [ArrayList<String> insList]
    @init { $insList = new ArrayList<String>(); }
    : (instruction { $insList.add($instruction.ins); })* 
    ;

instruction returns [String ins]
    :  ( create { $ins = $create.ins; } | move  { $ins = $move.ins; } | stack { $ins = $stack.ins; } ) ';' 
    ;

create returns [String ins]
    :  'block' id=BlockId 'at' c=coordinates    { $ins = "        Block " + $id.text + " = new Block(" + $c.coords + ");\n"; }
    ;

move returns [String ins]
    :  'move' id=BlockId 'to' c=coordinates     { $ins = "        BlockController.moveBlock(" + $id.text + ", " + $c.coords + ");\n"; }
    ;

stack returns [String ins]
    :  'stack' id1=BlockId 'on' id2=BlockId     { $ins = "        BlockController.stackBlocks(" + $id1.text + ", " + $id2.text + ");\n"; }
    ;

coordinates returns [String coords]
    :    '(' x=PosInt ',' y=PosInt ')'          { $coords = $x.text + ", " + $y.text; }
    ;

BlockId
    :    ('A'..'Z')+
    ;

PosInt
    :    ('0'..'9') ('0'..'9')* 
    ;

WS  
    :   (' ' | '\t' | '\r'| '\n')               -> channel(HIDDEN)
    ;

(请注意,为简单起见,此语法需要分号来分隔每个指令。

当然还有其他方法可以做这种事情,但这对我来说似乎是最简单的。

祝你好运!


更新

所以我继续“完成”我的原始帖子(修复了上述语法中的一些错误),并在一个简单的脚本上进行测试。

这是我用来测试上述语法.java文件(取自您上面发布的代码存根)。请注意,在您的情况下,您可能希望将脚本文件名(在我的代码中)设置为命令行参数。此外,当然,和类将来自您的罐子。"script.blockspeak"BlockBlockController

块测试.java

import org.antlr.v4.runtime.*;

class Block {
    private String name;
    private int xCoord;
    private int yCoord;

    // Other Getters, setters, ctors, etc.
    public Block(int x, int y) { xCoord = x; yCoord = y; }

    public int getXCoord() { return xCoord; }
    public int getYCoord() { return yCoord; }

    public void setXCoord(int x) { xCoord = x; }
    public void setYCoord(int y) { yCoord = y; }

    public void setCoords(int x, int y) {
        setXCoord(x);
        setYCoord(y);
    }
}

class BlockController {
    public static void moveBlock(Block block, int newXCoord, int newYCoord) {
        block.setCoords(newXCoord, newYCoord);
    }

    public static void stackBlocks(Block under, Block onTop) {
        // Stack "onTop" on top of "under".
        // Don't worry about the math here, this is just for an example.
        onTop.setCoords(under.getXCoord() + onTop.getXCoord(), under.getYCoord());
    }
}

public class BlocksTest {
    public static void main(String[] args) throws Exception {
        ANTLRFileStream in = new ANTLRFileStream("script.blockspeak");
        BlockSpeakLexer lexer = new BlockSpeakLexer(in);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        BlockSpeakParser parser = new BlockSpeakParser(tokens);
        parser.program();
    }
}

以下是我使用的命令行(在我的MacBook Pro上):

> java -jar antlr-4.4-complete.jar BlockSpeak.g
> javac -cp .:antlr-4.4-complete.jar *.java
> java -cp .:antlr-4.4-complete.jar BlocksTest > BlockProgram.java

这是输入脚本:

script.blockspeak

block A at (0, 10);                                                                                                                                            
block B at (0, 20);
stack A on B;

这是输出:

块程序.java

//import com.whatever.stuff;

public class BlockProgram {
    public static void main(String[] args) {


        Block A = new Block(0, 10);

        Block B = new Block(0, 20);

        BlockController.stackBlocks(A, B);


    } // main()
} // class BlockProgram

当然,您必须为每个脚本编译并运行BlockProgram.java。


在回答您的评论(#3)中的一个问题时,我首先考虑的几个更复杂的选项可能会简化您的“用户体验”。

(A) 无需使用语法生成 Java 程序,然后必须编译和运行该程序,而是可以将对 的调用直接嵌入到 ANTLR 操作中。在我创建字符串并将它们从一个非终端传递到下一个非终端的地方,只要识别规则,您就可以让java代码直接执行Block命令。这需要在ANTLR语法和导入方面更加复杂,但这在技术上是可行的。BlockControllerinstruction

(B)如果你要做选项A,你可以更进一步,创建一个交互式解释器(“shell”),其中用户会看到一个提示,并在提示符下输入“blockspeak”命令,然后直接解析和执行,将结果显示回用户。

复杂性而言,这两个选项都不那么难以完成,但它们都需要执行更多的编码,这超出了Stack Overflow答案的范围。这就是为什么我选择在这里提出一个“更简单”的解决方案。


推荐