DISCUZ的中文分词for php

date:星期六, 一月 30th, 2010 at 3:00 上午 Categories:php

需要用中文分词来获取TAG
找了DISCUZ的觉得不错,是在线的,不需要本地的词库

<?php    
 
//强制使用字符集    
 
@header('Content-Type: text/html; charset=gbk');    
 
$subjectenc =$_POST['subject'];
 
 
 
$messageenc = preg_replace($_POST['message']);
 
 
$data = @implode('', file("http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=gbk&ocs=gbk")); 
 
if($data) {    
 
$parser = xml_parser_create();//建立一个 XML 解析器    
 
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);    
 
xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1);    
 
xml_parse_into_struct($parser, $data, $values, $index);//将 XML 数据解析到数组中    
 
xml_parser_free($parser);    
 
$kws = array();    
 
foreach($values as $valuearray) {    
 
  if(in_array($valuearray['tag'],array('kw','ekw'))) {   //kw ekw是什么意思?    
 
    $kws[] = iconv('utf-8','gbk',$valuearray['value']);//编码转换    
 
   }    
 
}}    
 
//最后出来的是数组.    
 
print_r($kws);    
 
?>

Leave a Reply