《计算机学报》文章摘要   全文下载
  文章题目一种基于密度的自适应最优LDA模型选择方法
  作者曹娟1),2),3) 张勇东1),2) 李锦涛1),2) 唐胜1),2)
  作者单位1)(中国科学院计算技术研究所虚拟现实技术实验室 北京 100190) 2)(中国科学院计算技术研究所智能信息处理重点实验室 北京 100190) 3)(中国科学院研究生院 北京 100049)
  发表年份2008
  发表月份10期(1780—1787)
  文章摘要摘要 主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论;基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构. 关键词 主题模型;主题;LDA;密度