《计算机学报》文章摘要 全文下载 | |
文章题目 | 基于多知识源的中文词法分析系统 |
作者 | 姜维 王晓龙 关毅 赵健 |
作者单位 | (哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001) |
发表年份 | 2007 |
发表月份 | 1期(137—145) |
文章摘要 | 摘要 汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%. 关键词 词法分析;汉语分词;词性标注;命名实体识别;语言模型 中图法分类号 TP391 |