文本相似性算法
2022-09-04 01:15:19
我有两个字幕文件。我需要一个函数来判断它们是表示相同的文本,还是表示相似的文本
有时会有评论说“风在吹......音乐正在播放“仅在一个文件中。但80%的内容将是相同的。该函数必须返回 TRUE(文件表示相同的文本)。有时有拼写错误,如1而不是l(一 - L),如这里:她1eft包袱。当然,这意味着函数必须返回 TRUE。
我的评论:
该函数应返回文本相似度的百分比 - 同意
“所有的人都很高兴”和“所有的人都不快乐” - 在这里,这将被认为是拼写错误,所以这将被视为相同的文本。确切地说,函数返回的百分比会更低,但足够高,足以说明短语是相似的。
请考虑是否要对整个文件或仅搜索字符串应用Levenshtein - 不确定Levenshtein,但算法必须作为一个整体应用于文件。不过,这将是一个很长的字符串。