单词之间没有空格的语言中的分词符(例如,亚洲)?
我想让MySQL全文搜索适用于日语和中文文本,以及任何其他语言。问题是这些语言以及可能其他语言的单词之间通常没有空格。当您必须键入与文本中相同的句子时,搜索没有用处。
我不能在每个字符之间放一个空格,因为英语也必须起作用。我想用PHP或MySQL解决这个问题。
我可以配置MySQL来识别应该是他们自己的索引单元的字符吗?有没有一个PHP模块可以识别这些字符,所以我可以在它们周围为索引抛出空格?
更新
部分解决方案:
$string_with_spaces =
preg_replace( "/[".json_decode('"\u4e00"')."-".json_decode('"\uface"')."]/",
" $0 ", $string_without_spaces );
这使得至少一些我需要特别对待的角色类。我可能应该提到,对索引文本进行大量讨论是可以接受的。
有谁知道我需要插入空格的所有字符范围?
另外,必须有一种更好的,可移植的方式来表示PHP中的这些字符吗?Literal Unicode中的源代码并不理想;我不会认出所有的角色;它们可能无法在我必须使用的所有计算机上进行渲染。