在java中通过标点符号和空格等通过正则表达式拆分字符串
我有这个文本文件,我读入Java应用程序,然后逐行计算其中的单词。现在,我正在将行拆分为单词
String.split([\\p{Punct}\\s+])"
但我知道我错过了文本文件中的一些单词。例如,“不能”一词应分为“可以”和“t”两个词。
逗号和其他标点符号应完全忽略,并被视为空格。我一直在努力了解如何形成一个更精确的正则表达式来做到这一点,但是当涉及到这一点时,我是一个新手,所以我需要一些帮助。
对于我所描述的目的,什么可能是更好的正则表达式?