使用斯坦福类型解析器从文本文件中提取名词短语

2022-09-04 20:13:12

我有一个文本,我想从中提取名词短语。我可以很容易地为我拥有的文本获取类型解析器,但想知道如何提取文本中的名词短语?


答案 1

您可以使用以下代码从树中提取名词短语。它假设你已经解析了存储在解析中的句子(即解析是LexicalizedParser类apper方法的输出)

public static List<Tree> GetNounPhrases()
{

    List<Tree> phraseList=new ArrayList<Tree>();
    for (Tree subtree: parse)
    {

      if(subtree.label().value().equals("NP"))
      {

        phraseList.add(subtree);
        System.out.println(subtree);

      }
    }

      return phraseList;

}

答案 2

也试试这个链接。我不确定斯坦福pos标记器和corenlp中可用的标记器是否相同,但我发现这个链接更有用。

在PoS标记之后,您将必须检测这样的模式(形容词|名词)* (名词介词)?(形容词|名词)* 名词

请尝试此链接,了解有关名词短语检测的一些详细信息。