余弦相似性与汉明距离 [闭合]
为了计算两个文档之间的相似性,我创建了一个包含术语频率的特征向量。但是,对于下一步,我无法在“余弦相似性”和“汉明距离”之间做出决定。
我的问题是:你有这些算法的经验吗?哪一个能给你更好的结果?
除此之外:你能告诉我如何在PHP中编码余弦相似性吗?对于汉明距离,我已经得到了代码:
function check ($terms1, $terms2) {
$counts1 = array_count_values($terms1);
$totalScore = 0;
foreach ($terms2 as $term) {
if (isset($counts1[$term])) $totalScore += $counts1[$term];
}
return $totalScore * 500 / (count($terms1) * count($terms2));
}
我不想使用任何其他算法。我只想得到帮助来决定两者。
也许有人可以谈谈如何改进算法。如果过滤掉停用词或常用词,会得到更好的结果吗?
我希望你能帮助我。提前致谢!