DISCUZ的中文分词for php
星期六, 一月 30th, 2010需要用中文分词来获取TAG
找了DISCUZ的觉得不错,是在线的,不需要本地的词库
<?php //强制使用字符集 @header('Content-Type: text/html; charset=gbk'); $subjectenc =$_POST['subject']; $messageenc = preg_replace($_POST['message']); $data = @implode('', file("http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=gbk&ocs=gbk")); if($data) { $parser = xml_parser_create();//建立一个 XML 解析器 xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0); xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1); xml_parse_into_struct($parser, $data, $values, $index);//将 XML 数据解析到数组中 xml_parser_free($parser); $kws = array(); foreach($values as $valuearray) { if(in_array($valuearray['tag'],array('kw','ekw'))) { //kw ekw是什么意思? $kws[] = iconv('utf-8','gbk',$valuearray['value']);//编码转换 } }} //最后出来的是数组. print_r($kws); ?>
