如何训练斯坦福NLP情绪分析工具
地狱大家!我正在使用斯坦福核心NLP包,我的目标是对实时推文流进行情感分析。
按原样使用情感分析工具会返回对文本“态度”的非常糟糕的分析。许多正面标记为中性,许多负面标记为正。我已经在文本文件中获得了超过一百万条推文,但我不知道如何实际训练该工具并创建自己的模型。
“可以使用以下命令使用 PTB 格式数据集重新训练模型:”
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
来自 dev.txt的样本(前导 4 表示 5 个 ...4/5 阳性)
(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))
测试样品.txt
(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))
火车上的样品.txt
(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))
我还有两个问题要问。
每个文件之间的意义和区别是什么?火车.txt/开发.txt/测试.txt ?
如何使用充满推文的原始、未解析的文本文件来训练自己的模型?
我对NLP非常陌生,所以如果我缺少任何必需的信息或任何东西,请批评!谢谢!