| 《计算机学报》文章摘要 全文下载 | |
| 文章题目 | 基于Labeled-LDA模型的文本分类新算法 |
| 作者 | 李文波1),2) 孙乐1) 张大鲲1) |
| 作者单位 | 1)(中国科学院软件研究所 北京 100080) 2)(中国科学院研究生院 北京 100049) |
| 发表年份 | 2008 |
| 发表月份 | 4期(620—627) |
| 文章摘要 | 摘要 LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro_F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro_F1提高约3%. 关键词 文本分类;图模型;隐含狄利克雷分配;变分推断 |