基于语言模型的预训练技术研究综述被引量：57

A Survey of Language Model Based Pre-training Technology

下载PDF

导出

摘要预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。 Pre-training technology has stepped into the center stage of natural language processing, especially with the emergence of ELMo, GTP, BERT, XLNet, T5, and GTP-3 in the last two years. In this paper, we analyze and classify the existing pre-training technologies from four aspects: language model, feature extractor, contextual representation, and word representation. We discuss the main issues and development trends of pre-training technologies in current natural language processing.

作者岳增营叶霞刘睿珩 YUE Zengying;YE Xia;LIU Ruiheng(Academy of Combat Support,Rocket Force University of Engineering,Xi’an,Shaanxi 710025,China)

机构地区火箭军工程大学作战保障学院

出处《中文信息学报》 CSCD 北大核心 2021年第9期15-29,共15页 Journal of Chinese Information Processing

基金国家自然科学基金青年基金(62006240)。

关键词自然语言处理预训练语言模型 natural language processing pre-training language model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1谭咏梅,刘姝雯,吕学强.基于CNN与双向LSTM的中文文本蕴含识别方法[J].中文信息学报,2018,32(7):11-19. 被引量：23
2QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：173
3朱张莉,饶元,吴渊,祁江楠,张钰.注意力机制在深度学习中的研究进展[J].中文信息学报,2019,33(6):1-11. 被引量：152

二级参考文献5

1刘茂福,李妍,姬东鸿.基于事件语义特征的中文文本蕴含识别[J].中文信息学报,2013,27(5):129-136. 被引量：11
2郭茂盛,张宇,刘挺.文本蕴含关系识别与知识获取研究进展及展望[J].计算机学报,2017,40(4):889-910. 被引量：30
3周博通,孙承杰,林磊,刘秉权.InsunKBQA:一个基于知识库的问答系统[J].智能计算机与应用,2017,7(5):150-154. 被引量：4
4庞超,尹传环.基于分类的中文文本摘要方法[J].计算机科学,2018,45(1):144-147. 被引量：9
5刘洋.神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144-1149. 被引量：110

共引文献344

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：7
2王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
3邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
4谭红叶,午泽鹏,卢宇,段庆龙,李茹,张虎.基于代表性答案选择与注意力机制的短答案自动评分[J].中文信息学报,2019,33(11):134-142. 被引量：7
5韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代,2019,0(46):265-266. 被引量：1
6韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代,2019,0(45):233-234.
7李江,冯存前,王义哲,许旭光.基于AlexNet-BiLSTM网络的锥体目标微动分类[J].信号处理,2019,35(11):1835-1843. 被引量：4
8潘永华,闭应洲,潘怀奇,郑思霞.基于稠密连接记忆神经网络的文本推理[J].计算机应用研究,2020,37(5):1380-1383.
9高统超,张云华.基于注意力机制和RECWE模型的中文词向量方法[J].网络空间安全,2020,11(2):96-103.
10杜梦星,王彦伟.基于CNN的突发事件预警系统的设计与实现[J].武汉工程大学学报,2020,42(2):207-212.

同被引文献550

1亢晓勉,宗成庆.融合篇章结构位置编码的神经机器翻译[J].智能科学与技术学报,2020(2):144-152. 被引量：8
2陈德旺,蔡际杰,黄允浒.面向可解释性人工智能与大数据的模糊系统发展展望[J].智能科学与技术学报,2019,0(4):327-334. 被引量：15
3马建霞,袁慧,蒋翔.基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J].数据分析与知识发现,2020,4(2):78-88. 被引量：8
4孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：8
5张斯琦.人工智能时代文学叙事功能与传播演变审思[J].求是学刊,2020(3):148-156. 被引量：7
6宋挺,郭展成,何世柱,刘康,赵军,刘升平.基于动态词遮掩的句子匹配预训练模型[J].中文信息学报,2021,35(11):43-50. 被引量：1
7屠可伟,李俊.句法分析前沿动态综述[J].中文信息学报,2020(7):30-41. 被引量：13
8阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：11
9刘艳红.生成式人工智能的三大安全风险及法律规制——以ChatGPT为例[J].东方法学,2023(4):29-43. 被引量：209
10无.中共中央、国务院印发《中国教育现代化2035》[J].中华人民共和国教育部公报,2019(1):2-5. 被引量：82

引证文献57

1王明皓,殷涛,杨洪杰,胡杰鑫,陈家宾.知识图谱和大模型技术发展与应用[J].网络安全与数据治理,2023,42(S01):126-131. 被引量：3
2刘海涛,陈鹏,陈春梅.论生成式人工智能时代的中国式教学现代化——基于学习哲学的视角[J].沈阳师范大学学报（教育科学版）,2023(5):10-17. 被引量：1
3张重毅,牛欣悦,孙君艳,祁丽娟,方梅.ChatGPT探析:AI大型语言模型下学术出版的机遇与挑战[J].中国科技期刊研究,2023,34(4):446-453. 被引量：40
4高嘉良,陆锋,彭澎,徐阳.基于网络文本迁移学习的旅游知识图谱构建[J].武汉大学学报（信息科学版）,2022,47(8):1191-1200. 被引量：4
5陶慧丹,段亮,王笳辉,岳昆.基于BERT的民间文学文本预训练模型[J].计算机技术与发展,2022,32(11):164-170. 被引量：4
6黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌.基于RoBERTa的电力领域词汇挖掘模型[J].电力大数据,2022,25(6):1-8. 被引量：1
7温浩,何茜茹,王杰,乔晓东,张鹏.基于ERNIE-BiGRU模型的摘要语步自动识别研究[J].中文信息学报,2022,36(11):91-100. 被引量：4
8李子成,常晓琴,李雅梦,李寿山,周国栋.基于联合学习的少样本多类别情感分类方法[J].北京大学学报（自然科学版）,2023,59(1):57-64. 被引量：1
9徐铭,李林昊,齐巧玲,王利琴.基于注意力平衡列表的溯因推理模型[J].计算机应用,2023,43(2):349-355.
10吴林静,涂凤娇,马鑫倩,高喻,刘清堂.人工智能视域下的在线协作会话分析:概念模型及应用[J].电化教育研究,2023,44(1):70-76. 被引量：3

二级引证文献172

1佘硕,林雅玲.基于LDA主题模型的我国突发公共卫生事件应急管理主题热度与趋势分析[J].中国应急管理科学,2024(6):66-85. 被引量：1
2杨杰.ChatGPT赋能公路检测行业带来的机遇、挑战及展望[J].交通与运输,2024,40(S01):252-254.
3张莹,吕平香.虚拟专题提升农业科技期刊出版服务能力的前景探析[J].学报编辑论丛,2024(1):709-714.
4王明皓,殷涛,杨洪杰,胡杰鑫,陈家宾.知识图谱和大模型技术发展与应用[J].网络安全与数据治理,2023,42(S01):126-131. 被引量：3
5王璨,马欣怡,王君仪,闻佳瑶,李佳妮.ChatGPT对银行投资业的影响及应对策略[J].科技经济市场,2024(5):50-52.
6薛春璐,王元杰,刘继芳,诸叶平,齐秀丽.基于智能新技术的科技期刊智慧出版与传播模式优化[J].编辑学报,2023,35(S01):117-120. 被引量：5
7蒋萌,王静,蒋艺.基于深度学习的多维度心理测评系统设计[J].自动化与仪器仪表,2023(5):158-161.
8蒋雪颖,刘欣,许静.基于ChatGPT在学术期刊出版中的应用分析[J].出版广角,2023(11):37-41. 被引量：9
9陆锋,诸云强,张雪英.时空知识图谱研究进展与展望[J].地球信息科学学报,2023,25(6):1091-1105. 被引量：31
10罗云梅,刘雪梅.ChatGPT对学术出版伦理的影响[J].医学与哲学,2023,44(12):25-28. 被引量：9

1徐明华.前列腺素类化合物的高效不对称合成新方法[J].科学通报,2021,66(28):3645-3648. 被引量：1

中文信息学报

2021年第9期

浏览历史

内容加载中请稍等...

基于语言模型的预训练技术研究综述被引量：57

参考文献3

二级参考文献5

共引文献344

同被引文献550

引证文献57

二级引证文献172

相关作者

相关机构

相关主题

浏览历史

基于语言模型的预训练技术研究综述 被引量：57

参考文献3

二级参考文献5

共引文献344

同被引文献550

引证文献57

二级引证文献172

相关作者

相关机构

相关主题

浏览历史

基于语言模型的预训练技术研究综述被引量：57