制作词法分析器

java lexical analyzer

2022-09-01 13:47:37

我现在正在使用词法分析器程序，我正在使用Java。我一直在研究这个问题的答案，但直到现在我都找不到答案。这是我的问题：

输入：

System.out.println ("Hello World");

所需输出：

Lexeme----------------------Token

System [Key_Word]

.       [Object_Accessor]

out   [Key_Word]

. [Object_Accessor]

println  [Key_Word]

(  [left_Parenthesis]

"Hello World"    [String_Literal]

)   [right_Parenthesis]

;  [statement_separator]

我仍然是一个初学者，所以我希望你们能帮助我。谢谢。

答案 1

你不需要ANTLR和Dragon的书来手工编写一个简单的词法分析器。即使是更完整的语言（如Java）的词法分析器，手写也不是非常复杂。显然，如果你有一个工业任务，你可能需要考虑工业强度工具，如ANTLR或一些lex变体，但为了学习词汇分析的工作原理，手工编写可能会被证明是一个有用的练习。我假设情况就是这样，因为你说你仍然是一个初学者。

这是一个简单的词法分析器，用Java编写，用于类似Scheme语言的子集，这是我在看到这个问题后写的。我认为代码相对容易理解，即使你以前从未见过词法分析器，仅仅是因为将字符流（在本例中为a）分解为标记流（在本例中为a）并不难。如果您有任何疑问，我可以尝试更深入地解释。StringList<Token>

import java.util.List;
import java.util.ArrayList;

/*
 * Lexical analyzer for Scheme-like minilanguage:
 * (define (foo x) (bar (baz x)))
 */
public class Lexer {
    public static enum Type {
        // This Scheme-like language has three token types:
        // open parens, close parens, and an "atom" type
        LPAREN, RPAREN, ATOM;
    }
    public static class Token {
        public final Type t;
        public final String c; // contents mainly for atom tokens
        // could have column and line number fields too, for reporting errors later
        public Token(Type t, String c) {
            this.t = t;
            this.c = c;
        }
        public String toString() {
            if(t == Type.ATOM) {
                return "ATOM<" + c + ">";
            }
            return t.toString();
        }
    }

    /*
     * Given a String, and an index, get the atom starting at that index
     */
    public static String getAtom(String s, int i) {
        int j = i;
        for( ; j < s.length(); ) {
            if(Character.isLetter(s.charAt(j))) {
                j++;
            } else {
                return s.substring(i, j);
            }
        }
        return s.substring(i, j);
    }

    public static List<Token> lex(String input) {
        List<Token> result = new ArrayList<Token>();
        for(int i = 0; i < input.length(); ) {
            switch(input.charAt(i)) {
            case '(':
                result.add(new Token(Type.LPAREN, "("));
                i++;
                break;
            case ')':
                result.add(new Token(Type.RPAREN, ")"));
                i++;
                break;
            default:
                if(Character.isWhitespace(input.charAt(i))) {
                    i++;
                } else {
                    String atom = getAtom(input, i);
                    i += atom.length();
                    result.add(new Token(Type.ATOM, atom));
                }
                break;
            }
        }
        return result;
    }

    public static void main(String[] args) {
        if(args.length < 1) {
            System.out.println("Usage: java Lexer \"((some Scheme) (code to) lex)\".");
            return;
        }
        List<Token> tokens = lex(args[0]);
        for(Token t : tokens) {
            System.out.println(t);
        }
    }
}

使用示例：

~/code/scratch $ java Lexer ""
~/code/scratch $ java Lexer "("
LPAREN
~/code/scratch $ java Lexer "()"
LPAREN
RPAREN
~/code/scratch $ java Lexer "(foo)"
LPAREN
ATOM<foo>
RPAREN
~/code/scratch $ java Lexer "(foo bar)"
LPAREN
ATOM<foo>
ATOM<bar>
RPAREN
~/code/scratch $ java Lexer "(foo (bar))"
LPAREN
ATOM<foo>
LPAREN
ATOM<bar>
RPAREN
RPAREN

一旦你写了一两个像这样的简单词法分析器，你就会很好地了解这个问题是如何分解的。然后，探索如何使用像lex这样的自动化工具会很有趣。基于正则表达式的匹配器背后的理论并不太困难，但确实需要一段时间才能完全理解。我认为手工编写词法分析器可以激发这项研究，并帮助你更好地掌握问题，而不是深入研究将正则表达式转换为有限自动化（首先是NFA，然后是NFA到DFA）背后的理论，等等......涉足该理论可能会一次接受很多东西，并且很容易不知所措。

就个人而言，虽然Dragon的书很好，而且非常彻底，但覆盖范围可能不是最容易理解的，因为它的目标是完整的，不一定是可访问的。在打开 Dragon 书之前，您可能想尝试一些其他编译器文本。以下是一些免费书籍，这些书籍有很好的介绍性报道，恕我直言：

http://www.ethoberon.ethz.ch/WirthPubl/CBEAll.pdf

http://www.diku.dk/~torbenm/Basics/

一些关于正则表达式实现的文章（自动词法分析通常使用正则表达式）

http://swtch.com/~rsc/regexp/

我希望这有帮助。祝你好运。

答案 2

ANTLR 4 将使用参考语法来做到这一点。您有两个选项，具体取决于您希望 Unicode 转义序列的处理遵循语言规范的程度。Java.g4

https://github.com/antlr/grammars-v4/blob/master/java/Java.g4：此语法仅将 Unicode 转义序列作为字符串或字符文本中的字符进行处理。
https://github.com/antlr/antlr4/blob/master/tool/test/org/antlr/v4/test/Java-LR.g4（必须在使用前重命名为 Java.g4）：此语法要求您将代码包装在 JavaUnicodeInputStream 中，该流根据 JLS 处理 Unicode 转义序列，然后再将其提供给词法分析器。ANTLRInputStream

编辑：此语法生成的令牌的名称与您的表略有不同。

您的令牌是Key_WordIdentifier
您的令牌是Object_AccessorDOT
您的令牌是left_ParenthesisLPAREN
您的令牌是String_LiteralStringLiteral
您的令牌是right_ParenthesisRPAREN
您的令牌是statement_separatorSEMI