《计算机学报》文章摘要   全文下载
  文章题目基于无指导学习策略的无词表条件下的汉语自动分词
  作者孙茂松1) 肖明1) 邹嘉彦2)
  作者单位1)(清华大学智能技术与系统国家重点实验室 北京 100084) 2)(香港城市大学语言资讯科学研究中心 香港)
  发表年份2004
  发表月份6期(736-742)
  文章摘要摘要 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益.全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法.大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了247%和566%. 关键词 汉语自动分词;无指导学习;汉字Bigram;互信息与t-测试的组合 中图法分类号 TP391