如何实现良好的亵渎性语言过滤器?
我们中的许多人需要处理用户输入,搜索查询以及输入文本可能包含亵渎性语言或不良语言的情况。通常,这需要被过滤掉。
在哪里可以找到各种语言和方言的脏话列表?
是否有可用于包含良好列表的源的 API?或者,一个API只是简单地说“是的,这是干净的”或“不,这是肮脏的”,带有一些参数?
有什么好方法可以抓住那些试图欺骗系统的人,比如a$$,azz或a55?
如果您提供PHP解决方案,则可获得奖励积分。:)
编辑:对答案的回应,说只是避免程序化问题:
我认为这种过滤器有一席之地,例如,当用户可以使用公共图像搜索来查找添加到敏感社区池中的图片时。如果他们能搜索“阴茎”,那么他们可能会得到很多照片,是的。如果我们不想要这样的图片,那么阻止这个词作为搜索词是一个很好的守门人,尽管诚然,这不是一个万无一失的方法。首先获得单词列表是真正的问题。
因此,我实际上指的是一种方法,可以弄清楚单个令牌是否肮脏,然后简单地禁止它。我不会费心阻止像完全搞笑的“长颈长颈鹿”这样的情绪。你在那里无能为力。:)