中文分词十年回顾被引量：251

Chinese Word Segmentation: A Decade Review

下载PDF

导出

摘要过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 During the last decade, especially since the First International Chinese Word Segmentation Bakeoff was held in July 2003, the study in automatic Chinese word segmentation has been greatly improved. Those improve- ments could be summarized as following：（1） on the computation sense Chinese words in real text have been well-defined by ＂segmentation guidelines ＋ lexicon ＋ segmented corpus＂; （2） practical results show that performance of statistic segmentation systems outperforms that of handcrafted rule-based systems; （3） the evaluation in terms of Bakeoff data shows that the accuracy drop caused by out-of-vocabulary （OOV） words is at least five times greater than that of segmentation ambiguities; （4） the better performance of OOV recognition the higher accuracy of the segmentation system in whole, and the accuracy of statistic segmentation systems with character-based tagging approach outperforms any other word-based system.

作者黄昌宁赵海

机构地区微软亚洲研究院香港城市大学

出处《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页 Journal of Chinese Information Processing

关键词计算机应用中文信息处理中文分词词语定义未登录词识别字标注分词方法 computer application Chinese information processing Chinese word segmentation （CWS） definition of words out-of-vocabulary （OOV） word recognition Character-based tagging approach of CWS

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102

二级参考文献68

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：7
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
7宋柔.关于分词规范的探讨[J].语言文字应用,1997(3):113-114. 被引量：12
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
10徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15

共引文献211

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：47
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：6
3梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
4张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6陈丽江.在特定类型的二字词组合型歧义消解过程中保证分词的一致性[J].文教资料,2006(23):99-100.
7郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
8王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
9王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
10洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.

同被引文献1966

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：47
2况利,徐小明,曾琪.机器学习用于自杀研究的综述[J].山东大学学报（医学版）,2022,60(4):10-16. 被引量：6
3冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：38
4张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：20
5廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
6郭峰,徐玉生,陈晓云,王颖.基于信息提取的面向行业应用文本分类算法[J].清华大学学报（自然科学版）,2005,45(S1):1810-1813. 被引量：3
7姜望琪.论术语翻译的标准[J].上海翻译,2005(S1):80-84. 被引量：162
8付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
9曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
10李育嫦.文献检索中提高查全率与查准率的方法探讨[J].图书馆学研究,2002(11):92-93. 被引量：26

引证文献251

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：47
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
7李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
8麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
9王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
10王凡秀,王自强.汉语自动分词技术研究[J].计算机与数字工程,2008,36(11):57-59. 被引量：3

二级引证文献1404

1黄行,王一茹.中国传统语言学术语英译策略与认知度[J].语言政策与规划研究,2019(2):1-11.
2高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：47
4梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
5唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：3
6秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
7冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：10
8于秒,逄小婷.词边界信息对外国汉语学习者阅读的影响:回顾与展望[J].南开语言学刊,2022(1):165-171.
9杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
10任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8

1叶欢时间[J].微型计算机,2007(09S):26-27.
2刘梅.服务,是行动不是口号——爱普生服务十年回顾[J].中国计算机用户,2004(49):59-59.
3王娟,曹庆花,黄精籼,胡忠胜.基于受限领域的中文分词系统[J].信息系统工程,2011,24(11):106-106.
4闫红,李付学,周云.基于HowNet句子相似度的计算[J].计算机技术与发展,2015,25(11):53-57. 被引量：11
5唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
6骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
7吴安迪.有关“理解和分词孰先孰后”的反思[J].中文信息学报,2007,21(3):20-20.
8李玉梅,陈晓,姜自霞,易江燕,靳光瑾,黄昌宁.分词规范亟需补充的三方面内容[J].中文信息学报,2007,21(5):3-7. 被引量：2
9Cherry,腊鸭.十年回顾之笔记本电脑和外设篇[J].大众软件,2011(2):49-54.
10陈园园.中国互联网经济论坛十年回顾[J].互联网周刊,2012(24):126-130. 被引量：1

中文信息学报

2007年第3期

浏览历史

内容加载中请稍等...

中文分词十年回顾被引量：251

参考文献6

二级参考文献68

共引文献211

同被引文献1966

引证文献251

二级引证文献1404

相关作者

相关机构

相关主题

浏览历史

中文分词十年回顾 被引量：251

参考文献6

二级参考文献68

共引文献211

同被引文献1966

引证文献251

二级引证文献1404

相关作者

相关机构

相关主题

浏览历史

中文分词十年回顾被引量：251