摘要
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。
Word segmentation is one of the key technology for natural language processing such as text auto- classification, informa- tion retrieval,information filtration, document auto - index, summarization auto - generation etc.. Chinese word segmentation is difficult problem in word segmentation because of it' s complexity and uncertain language rules in nature. This paper sums up the research com- prehensively of Chinese word segmentation algorithm, disambiguation method, unknown word recognition, auto - segmentaion systems etc. and summarizes Chinese word segmentation' s research difficult points and hot points today.
出处
《图书情报工作》
CSSCI
北大核心
2011年第2期41-45,共5页
Library and Information Service
基金
国家社会科学基金项目"自动文本分类技术研究"(项目编号:08CTQ003)研究成果之一
关键词
中文分词
分词算法
歧义消除
未登录词
分词系统
chinese word segmentation word segmentation algorithm disambiguation method unknown word recognition word segmentation system