[转]PHP中文二元分词技术函数(UTF-8编码)
因mysql不直接支持对中文的全文检索,基于mysql的数据库的搜索功能设计一向都成为了难题。
当然想偷懒,完全可以用like来对付,但你的网站的数据量到了几百万的时候……使用KingCMS建站的站长,要么就休了搜索功能,要么就考虑转向其他CMS类系统。
参考了网上的代码,但基本都是对GBK码的编码,在UTF-8下会出错,所以在UTF-8下重写了分词函数,如下:
/**
* 中文分词函数,输出数字组合
*/
function wordSegment($str) {
$search[……]