计算机学报

	《计算机学报》文章摘要全文下载
文章题目	一种高性能的两类中文文本分类方法
作者	樊兴华1),2) 孙茂松1)
作者单位	1)(清华大学计算机科学与技术系智能技术与系统国家重点实验室北京 100084) 2)(国家知识产权局北京 100088)
发表年份	2006
发表月份	1期(124—131)
文章摘要	摘要提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略：第1步以词性为动词、名词、形容词或副词的词语作为特征，以改进的互信息公式来选择特征，以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y，构造二维文本空间，将文本映射为二维空间中的一个点，将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分，以此评估第1步分类结果，若第1步分类可靠，做出分类决策；否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列，以该序列中相邻两个词语构成的二元词语串作为特征，以改进互信息公式来选择特征，以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明，两步文本分类方法达到了较高的分类性能，精确率、召回率和F1值分别为9719%，9394%和9554%. 关键词文本分类；文本过滤；高性能；中文信息处理中图法分类号 TP18