基于条件随机场(CRFs)的中文词性标注方法被引量：56

A Chinese Part-of-speech Tagging Approach Using Conditional Random Fields

下载PDF

导出

摘要本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 This paper presents a new approach to part-of-speech （POS） tagging for Chinese texts using conditional random fields （CRFs）. To take advantage of the ability of using arbitrary features as input in CRFs, not only contexts of words are exploited, but also are new statistical features adopted for multiple-category and out-of-vocabulary words. Closed and open tests conducted on People Daily dataset obtain POS tagging accuracies of 98. 56% and 96.60%, respectively.

作者洪铭材张阔唐杰李涓子

机构地区清华大学计算机系知识工程组

出处《计算机科学》 CSCD 北大核心 2006年第10期148-151,155,共5页 Computer Science

关键词词性标注条件随机场维特比解码 Part-of-speech tagging, Conditional random fields （CRFs）, Viterbi decoding

分类号 TP391.72 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In:Proceedings of the 18th International Conf on machine Learning,2001.282～289
2周明,吴进,黄昌宁.用于词性标注的一种快速学习算法──对Brill的基于变换算法的一项改进[J].计算机学报,1998,21(4):357-366. 被引量：8
3Sha F,Pereira F.Shallow Parsing with Conditional Random Fields.In:Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics (HLT-NAACL),2003
4现代汉语语料库加工规范-词语切分与词性标注.北京大学计算语言学研究所,1999
5白栓虎.基于统计的汉语词性自动标注方法[J].语文建设,1994(10):38-40. 被引量：2
6Bai Shuanhu.An Integrated Model of Chinese Word Segmentation and Part-of Speech Tagging.In:Advanced and Applications on Computational Linguistics,Third National Computational Linguistics Meeting,Shanghai.Nov.1995.56～61
7Bai S H,Xia,Y,Huang C N.Automatic Part-of-Speech Tagging System of Chinese:[Technical Report].Beijing:Tsinghua University,1992

共引文献8

1陈文亮,朱靖波,吕学强.词性标注规则的获取和优化[J].术语标准化与信息技术,2004(2):23-26. 被引量：5
2胡冠龙,张建,李淼.改进的基于转换方法的拉丁蒙文词性标注[J].计算机应用,2007,27(4):963-965. 被引量：4
3王蕾,朱巧明,李培峰,杨季文.基于实例和错误驱动的规则学习方法及其应用[J].计算机应用与软件,2008,25(1):162-164. 被引量：1
4孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-23. 被引量：10
5周溢辉,杨娜,昝红英.汉语常用语气词用法规则自动改进算法研究[J].计算机应用与软件,2012,29(12):73-76.
6田卫东,李亚娟.基于CRF和错误驱动的中心词识别[J].计算机应用研究,2013,30(8):2345-2348. 被引量：3
7帕提古力.依马木,买合木提.买买提,吐尔根.依布拉音,卡哈尔江.阿比的热西提.基于感知器算法的维吾尔语词性标注研究[J].中文信息学报,2014,28(5):187-191. 被引量：4
8耿云冬,张逸勤,刘欢,王东波.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):55-63. 被引量：15

同被引文献428

1宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：20
3赵伟,赵法兴,王东海,韩达奇.一种基于改进的最大熵模型的汉语词性自动标注的新方法[J].计算机研究与发展,2006,43(z3):174-178. 被引量：3
4陈勇.情感语义及其民族文化特点[J].外语与外语教学,2003(5):39-43. 被引量：12
5张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
6徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13
7于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
8周洪波.新词语的预测[J].语言文字应用,1996(2):73-78. 被引量：32
9傅力.复合式合成词中应该有“同位型”的地位[J].汉语学习,1989(4):11-13. 被引量：2
10符淮青.义项的性质与分合[J].辞书研究,1981(3):86-94. 被引量：14

引证文献56

1于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
2周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
3尚福华,于剑光,李建平.基于属性分组的条件随机域网络入侵检测模型[J].哈尔滨商业大学学报（自然科学版）,2009,25(3):321-326.
4王丽杰,车万翔,刘挺.基于SVMTool的中文词性标注[J].中文信息学报,2009,23(4):16-21. 被引量：17
5冀中,苏育挺,杨益铮.基于多模态信息融合的新闻独白镜头检测[J].计算机工程与应用,2009,45(25):173-175. 被引量：1
6邢富坤,宋柔,罗智勇.SSD模型及其在汉语词性标注中的应用[J].中文信息学报,2010,24(1):20-24. 被引量：4
7谷川,田喜平.基于条件随机场的汉语词性标注方法研究[J].安阳师范学院学报,2010(5):6-8.
8张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
9周晶.基于条件随机域模型的中文实体关系抽取[J].计算机工程,2010,36(24):192-194. 被引量：2
10袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11

二级引证文献300

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2王芬,刘铜华,丁雷,何华亮,陈路佳.基于概率图的中医动态交互问诊与智能辨证的数学模型的探索[J].世界科学技术-中医药现代化,2023,25(10):3370-3376. 被引量：2
3屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：8
4黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
5冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：10
6任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
7成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
8郭恒川.人工智能中的机器学习技术应用[J].电子技术（上海）,2021,50(10):294-296. 被引量：3
9热孜瓦姑丽·吾斯曼,艾孜尔古丽·玉素甫.论现代的维吾尔语情感分析方法进展[J].电脑知识与技术,2020,0(4):178-179.
10贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.

1杨荣根,杨忠.基于HMM中文词性标注研究[J].金陵科技学院学报,2017,33(1):20-23. 被引量：3
2魏勇刚,张国春,常勇,袁方.基于词性分析和领域知识的Deep Web语义标注[J].郑州大学学报（理学版）,2009,41(1):52-55. 被引量：7
3刘红玉,吕丽珺,周兰江.基于代理的智能信息过滤技术的设计与实现[J].昆明理工大学学报（理工版）,2005,30(z1):343-346.
4孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-23. 被引量：10
5赖俊杰,陈建文,汤俊,彭应宁.应用设计:基于Cell/B.E.的高性能维特比解码器[J].China Communications,2009,6(1):55-60.
6杜呈透,王让定.基于音频内容与维特比解码的音频数字水印算法[J].计算机应用研究,2005,22(8):68-69. 被引量：3
7仲其智,姚建民.低频词的中文词性标注研究[J].计算机应用与软件,2011,28(3):182-185. 被引量：3
8张鹏远,邵健,赵庆卫,颜永红.广播新闻语音的关键词检测系统[J].通信学报,2007,28(12):131-135. 被引量：1
9曹振海,谢晖,邵谦明.流水线结构的维特比回溯算法及其实现[J].计算机工程,2004,30(3):66-68.

计算机科学

2006年第10期

浏览历史

内容加载中请稍等...

基于条件随机场(CRFs)的中文词性标注方法被引量：56

参考文献7

共引文献8

同被引文献428

引证文献56

二级引证文献300

相关作者

相关机构

相关主题

浏览历史

基于条件随机场(CRFs)的中文词性标注方法 被引量：56

参考文献7

共引文献8

同被引文献428

引证文献56

二级引证文献300

相关作者

相关机构

相关主题

浏览历史

基于条件随机场(CRFs)的中文词性标注方法被引量：56