《计算机学报》文章摘要   全文下载
  文章题目一种新颖的词聚类算法和可变长统计语言模型
  作者陈浪舟 黄泰翼
  作者单位(中国科学院自动化研究所 北京 100080)
  发表年份1999
  发表月份9期 (页码:942—948)
  文章摘要基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram)的生成方法,用此方法生成的基于类的Vari-gram模型预测能力远高于通常的基于类的n元模型. 关键词 词的聚类,统计语言模型,可变长模型.