我如何为斯坦福标记器创建自己的训练语料库?

2022-09-03 14:42:27

我必须用大量的短手和当地行话来分析非正式的英语文本。因此,我正在考虑为斯坦福标记器创建模型。

如何创建自己的一组标记语料库供斯坦福标记器进行训练?

语料库的语法是什么,我的语料库应该有多长才能达到理想的性能?


答案 1

要训练 PoS 标记器,请参阅此邮件列表帖子,该邮件列表也包含在 MaxentTagger 类的 JavaDocs 中。

edu.stanford.nlp.tagger.maxent.Train 类的 javadocs 指定了训练格式:

训练文件应采用以下格式:每行一个单词和一个标签,由空格或制表符分隔。每个句子应以EOS字标对结尾。(实际上,我不完全确定情况是否仍然如此,但可能不会受到伤害。


答案 2

实质上,您为训练过程设置格式的文本每行上应有一个标记,后跟一个选项卡,后跟一个标识符。标识符可以是“LOC”表示位置,“COR”表示公司,“0”表示非实体令牌。例如:

I     0
left     0
my     0
heart     0
in     0
Kansas     LOC
City     LOC
.     0

当我们的团队训练一系列分类器时,我们为每个分类器提供了一个训练文件,其中包含大约180,000个令牌,我们看到精度净提高,但召回率净下降。(值得注意的是,精度的提高在统计上并不显着。为了以防它对其他人有用,我在这里描述了我们用于训练分类器的过程以及训练分类器和默认分类器的p,r和f1值。


推荐