《计算机学报》文章摘要   全文下载
  文章题目一种高性能的两类中文文本分类方法
  作者樊兴华1),2) 孙茂松1)
  作者单位1)(清华大学计算机科学与技术系智能技术与系统国家重点实验室 北京 100084) 2)(国家知识产权局 北京 100088)
  发表年份2006
  发表月份1期(124—131)
  文章摘要摘要 提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为9719%,9394%和9554%. 关键词 文本分类;文本过滤;高性能;中文信息处理 中图法分类号 TP18