如何将PHP中的字符串截断为最接近一定数量字符的单词?编辑:
我有一个用PHP编写的代码片段,它从数据库中提取一个文本块,并将其发送到网页上的小部件。原始文本块可以是一篇长篇文章,也可以是一两个短句;但是对于这个小部件,我不能显示超过200个字符。我可以使用 substr() 在 200 个字符处切掉文本,但结果会在单词中间切掉 - 我真正想要的是在最后一个单词的末尾切掉 200 个字符之前的文本。
我有一个用PHP编写的代码片段,它从数据库中提取一个文本块,并将其发送到网页上的小部件。原始文本块可以是一篇长篇文章,也可以是一两个短句;但是对于这个小部件,我不能显示超过200个字符。我可以使用 substr() 在 200 个字符处切掉文本,但结果会在单词中间切掉 - 我真正想要的是在最后一个单词的末尾切掉 200 个字符之前的文本。
通过使用自动换行功能。它将文本拆分为多行,使得最大宽度是您指定的宽度,从而在单词边界处断开。拆分后,您只需取第一行:
substr($string, 0, strpos(wordwrap($string, $your_desired_width), "\n"));
此 oneliner 无法处理的一件事是文本本身短于所需宽度的情况。要处理这种边缘情况,应该做这样的事情:
if (strlen($string) > $your_desired_width)
{
$string = wordwrap($string, $your_desired_width);
$string = substr($string, 0, strpos($string, "\n"));
}
上述解决方案存在过早剪切文本的问题,如果它在实际切割点之前包含换行符。这里有一个版本可以解决这个问题:
function tokenTruncate($string, $your_desired_width) {
$parts = preg_split('/([\s\n\r]+)/', $string, null, PREG_SPLIT_DELIM_CAPTURE);
$parts_count = count($parts);
$length = 0;
$last_part = 0;
for (; $last_part < $parts_count; ++$last_part) {
$length += strlen($parts[$last_part]);
if ($length > $your_desired_width) { break; }
}
return implode(array_slice($parts, 0, $last_part));
}
另外,这里是用于测试实现的 PHPUnit 测试类:
class TokenTruncateTest extends PHPUnit_Framework_TestCase {
public function testBasic() {
$this->assertEquals("1 3 5 7 9 ",
tokenTruncate("1 3 5 7 9 11 14", 10));
}
public function testEmptyString() {
$this->assertEquals("",
tokenTruncate("", 10));
}
public function testShortString() {
$this->assertEquals("1 3",
tokenTruncate("1 3", 10));
}
public function testStringTooLong() {
$this->assertEquals("",
tokenTruncate("toooooooooooolooooong", 10));
}
public function testContainingNewline() {
$this->assertEquals("1 3\n5 7 9 ",
tokenTruncate("1 3\n5 7 9 11 14", 10));
}
}
不处理特殊 UTF8 字符(如“à”)。在正则表达式的末尾添加“u”来处理它:
$parts = preg_split('/([\s\n\r]+)/u', $string, null, PREG_SPLIT_DELIM_CAPTURE);
这将返回单词的前 200 个字符:
preg_replace('/\s+?(\S+)?$/', '', substr($string, 0, 201));