在朴素贝叶斯垃圾邮件过滤中结合单个概率
我目前正在尝试通过分析我积累的语料库来生成垃圾邮件过滤器。
我正在使用维基百科条目 http://en.wikipedia.org/wiki/Bayesian_spam_filtering 来开发我的分类代码。
我已经实现了代码,通过从wiki中实现以下公式来计算邮件是垃圾邮件的概率,因为它包含特定的单词:
我的 PHP 代码:
public function pSpaminess($word)
{
$ps = $this->pContentIsSpam();
$ph = $this->pContentIsHam();
$pws = $this->pWordInSpam($word);
$pwh = $this->pWordInHam($word);
$psw = ($pws * $ps) / ($pws * $ps + $pwh * $ph);
return $psw;
}
根据“合并单个概率”部分,我实现了代码来组合测试邮件中所有唯一单词的概率,以确定垃圾邮件。
从维基公式:
我的 PHP 代码:
public function predict($content)
{
$words = $this->tokenize($content);
$pProducts = 1;
$pSums = 1;
foreach($words as $word)
{
$p = $this->pSpaminess($word);
echo "$word: $p\n";
$pProducts *= $p;
$pSums *= (1 - $p);
}
return $pProducts / ($pProducts + $pSums);
}
在测试字符串“这根本不是很糟糕”上,将生成以下输出:
C:\projects\bayes>php test.php
this: 0.19907407407407
isn't: 0.23
very: 0.2
bad: 0.2906976744186
at: 0.17427385892116
all: 0.16098484848485
probability message is spam: float(0.00030795502523944)
这是我的问题:我是否正确实现了组合单个概率?假设我正在生成有效的单个单词概率,那么组合方法是否正确?
我担心的是计算的结果概率非常小。我已经在一个更大的测试消息上测试了它,最终得到了一个科学记数法的结果概率,超过10个零位。我期待10s或100ths的位置的值。
我希望问题出在我的PHP实现上 - 但是当我检查维基百科的组合函数时,公式的红利是分数的乘积。我不明白多重概率的组合最终如何超过0.1%的概率。
如果是这种情况,使得邮件越长,概率分数就越低,我如何补偿垃圾邮件配额以正确预测小型和大型测试用例的垃圾邮件/火腿?
附加信息
我的语料库实际上是大约40k reddit评论的集合。我实际上是在对这些评论应用我的“垃圾邮件过滤器”。我根据向下投票数将个人评论评为垃圾邮件/火腿:如果向上投票少于向下投票,则将其视为Ham,否则为垃圾邮件。
现在,由于语料库类型,事实证明,实际上很少有单词在垃圾邮件中使用,而不是在火腿中使用。也就是说,这是垃圾邮件中出现的十大单词列表,而不是火腿。
+-----------+------------+-----------+
| word | spam_count | ham_count |
+-----------+------------+-----------+
| krugman | 30 | 27 |
| fetus | 12.5 | 7.5 |
| boehner | 12 | 10 |
| hatred | 11.5 | 5.5 |
| scum | 11 | 10 |
| reserve | 11 | 10 |
| incapable | 8.5 | 6.5 |
| socalled | 8.5 | 5.5 |
| jones | 8.5 | 7.5 |
| orgasms | 8.5 | 7.5 |
+-----------+------------+-----------+
相反,大多数单词在火腿中的使用非常丰富,而不是火腿。例如,我的垃圾邮件数量最多的前10个单词列表。
+------+------------+-----------+
| word | spam_count | ham_count |
+------+------------+-----------+
| the | 4884 | 17982 |
| to | 4006.5 | 14658.5 |
| a | 3770.5 | 14057.5 |
| of | 3250.5 | 12102.5 |
| and | 3130 | 11709 |
| is | 3102.5 | 11032.5 |
| i | 2987.5 | 10565.5 |
| that | 2953.5 | 10725.5 |
| it | 2633 | 9639 |
| in | 2593.5 | 9780.5 |
+------+------------+-----------+
如您所见,垃圾邮件使用的频率明显低于火腿使用频率。在我的40k评论语料库中,2100条评论被视为垃圾邮件。
如下所述,帖子上的测试短语将垃圾邮件费率视为垃圾邮件,如下所示:
短语
Cops are losers in general. That's why they're cops.
分析:
C:\projects\bayes>php test.php
cops: 0.15833333333333
are: 0.2218958611482
losers: 0.44444444444444
in: 0.20959269435914
general: 0.19565217391304
that's: 0.22080730418068
why: 0.24539170506912
they're: 0.19264544456641
float(6.0865969793861E-5)
据此,这是垃圾邮件的可能性极低。但是,如果我现在分析一个火腿评论:
短语
Bill and TED's excellent venture?
分析
C:\projects\bayes>php test.php
bill: 0.19534050179211
and: 0.21093065570456
ted's: 1
excellent: 0.16091954022989
venture: 0.30434782608696
float(1)
好吧,这很有趣。我在编写此更新时正在执行这些示例,因此这是我第一次看到此特定测试用例的结果。我认为我的预测是颠倒的。它实际上挑选出火腿而不是垃圾邮件的概率。这值得验证。
对已知火腿的新测试。
短语
Complain about $174,000 salary being too little for self. Complain about $50,000 a year too much for teachers.
Scumbag congressman.
分析
C:\projects\bayes>php test.php
complain: 0.19736842105263
about: 0.21896031561847
174: 0.044117647058824
000: 0.19665809768638
salary: 0.20786516853933
being: 0.22011494252874
too: 0.21003236245955
little: 0.21134020618557
for: 0.20980452359022
self: 0.21052631578947
50: 0.19245283018868
a: 0.21149315683195
year: 0.21035386631717
much: 0.20139771283355
teachers: 0.21969696969697
scumbag: 0.22727272727273
congressman: 0.27678571428571
float(3.9604152477223E-11)
很遗憾,没有。事实证明,这是一个巧合的结果。我开始怀疑评论是否不能那么容易量化。也许不良评论的性质与垃圾邮件的性质有太大不同。
也许可能是垃圾邮件过滤仅在您具有垃圾邮件的特定单词类别时才起作用的情况?
最终更新
正如答复中所指出的,奇怪的结果是由于语料库的性质。在没有垃圾邮件贝叶斯分类的明确定义的情况下使用注释语料库不会执行。由于任何一条评论都可能(并且很可能)同时收到各种用户的垃圾邮件和火腿评级,因此不可能为垃圾评论生成硬分类。
最终,我想生成一个评论分类器,该分类器可以确定评论帖子是否会根据针对评论内容进行调整的贝叶斯分类来装饰业力。我可能仍然会研究将分类器调整为垃圾邮件,看看这样的分类器是否可以猜测评论系统的业力响应。但就目前而言,这个问题已经得到解答。谢谢大家的投入。