基于预训练语言模型的商品属性抽取被引量：5

Pre-trained Language Models for Product Attribute Extraction

下载PDF

导出

摘要属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值。该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题。为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集。基于新构建的数据集,该文进行多组实验并进行实验结果分析。特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取。实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取表现最佳,而在跨领域实验中BERT表现最佳。同时,该文发现增加少量目标领域标注数据可以有效提高跨领域属性抽取效果,增强了模型的领域适应性。 Attribute extraction is a key step of constructing a knowledge graph. In this paper, the task of attribute extraction is converted into a sequence labeling problem. Due to a lack of labeling data in product attribute extraction, we use the distant supervision to automatically label multiple source texts related to e-commerce. In order to accurately evaluate the performance of the system, we construct a manually annotated test set, and finally obtain a new data set for product attribute extraction in multi-domains. Based on the newly constructed data set, we carried out intra-domain and cross-domain attribute extraction for a variety of pre-trained language models. The experimental results show that the pre-trained language models can better improve the extraction performance. Among them, ELECTRA performs the best in attribute extraction in in-domain experiments, and BERT performs the best in cross-domain experiments. we also find that adding a small amount of target domain annotation data can effectively improve the performance cross-domain attribute extraction and enhance the domain adaptability of the model.

作者张世奇马进周夏冰贾昊陈文亮张民 ZHANG Shiqi;MA Jin;ZHOU Xiabing;JIA Hao;CHEN Wenliang;ZHANG Min(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)

机构地区苏州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2022年第1期56-64,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(61876115)。

关键词属性抽取远程监督预训练语言模型跨领域学习 attribute extraction distant supervision pre-trained language model domain adaptation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1康睿智,郝文宁,程恺,占栋辉.面向军事装备实体的属性抽取[J].计算机应用研究,2016,33(12):3721-3724. 被引量：5
2张巧,熊锦华,程学旗.基于弱监督学习的主页人物属性抽取方法[J].山西大学学报（自然科学版）,2015,38(1):8-15. 被引量：5
3马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11

二级参考文献35

1李红亮,杨燕,尹红风,贾真.基于规则的百科人物属性抽取[J].集成技术,2013,2(3):1-4. 被引量：3
2董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
3Tang J,Zhang J,Yao L,et al. Arnetminer: Extraction and Mining of Academic Social Networks[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM,2008:990-998.
4Yang Q, Zhang C, Niu Z. Two-stage Web Record Extraction[C]//Computer Science & Education (ICCSE), 2013 8th In- ternational Conference on. IEEE,2013:783-788.
5Bing L, Lam W, Wong T L. Wikipedia Entity Expansion and attribute Extraction form the Web using Semi-supervised Learning[C] // Proceedings of the sixth ACM International Conference on Web Search and Data Mining. ACM, 2013: 567- 576.
6Wu B,Cheng X,Wang Y,et al. Simultaneous Product Attribute 'Name and Value Extraction from Web Pages[C]//Pro- ceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technol- ogy. IEEE Computer Society, 2009 : 295-298.
7Wong T L, Lam W, Wong T S. An Unsupervised Framework for Extracting and Normalizing Product Attributes from Multiple Web Sites[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and develop- ment in information retrieval. ACM, 2008 : 35-42.
8Han H,Giles C L, Manavoglu E,et al. Automatic Document Metadata Extraction Uging Support Vector Machines[C]// Proceedings of the ACM/IEEE Joint Conference on Digital Libraries. IEEE,2003:37-48.
9Sekine S, Artiles J. Weps2 Attribute Extraction Task[C]//2nd Web People Search Evaluation Workshop, 18th WWW Conference, 2009.
10de Pablo-Sanchez C, Martinez Fernfindez P. UC3M at WePS2-AE:Acquiring Patterns for People Attribute Extraction from Webpages[C]//2nd Web People Search Evaluation Workshop, 18th WWW Conference, 2009.

共引文献16

1步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
2马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
3王学锋,杨若鹏,贾明亮.基于循环神经网络的作战文书实体关系抽取[J].智能安全,2022,1(1):29-35.
4沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
5程南昌,邹煜,滕永林,侯敏.篇章知识与逐级分类相结合的人物属性抽取方法研究[J].语言文字应用,2019(1):125-134. 被引量：1
6瞿珊珊,周晓光.面向流域水资源自由文本的属性抽取方法[J].情报探索,2018(5):63-67.
7苏丰龙,谢庆华,黄清泉,邱继远,岳振军.基于直推式学习的半监督属性抽取[J].山东大学学报（理学版）,2016,51(3):111-115. 被引量：5
8范涛,王昊,张宝隆.基于远程监督和深度学习的非物质文化遗产文本属性抽取研究[J].情报理论与实践,2021,44(10):1-7. 被引量：6
9袁清波,杜晓明,马合林.指挥控制保障领域知识抽取系统框架研究[J].现代电子技术,2022,45(5):117-121. 被引量：3
10卓可秋,沈思,王东波.自有知识增强下的学术全文本关系抽取研究[J].图书情报工作,2022,66(7):120-131. 被引量：2

同被引文献35

1刘海顺,王雷,孙媛媛,陈彦光,张书晨,林鸿飞.基于预训练语言模型的案件要素识别方法[J].中文信息学报,2021,35(11):91-100. 被引量：7
2丁毓峰,胡业发,盛步云,周祖德.基于规则和事例混合推理的冲突解决技术研究[J].机械科学与技术,2005,24(3):256-260. 被引量：11
3缪相林,孙超,李彦,汪芳山,李小明,陈凯.电网检修计划设计的智能分析与可视化实现[J].西安交通大学学报,2005,39(6):582-585. 被引量：10
4程丽,缪相林,张培海,王聪.基于专家系统编排电网设备检修计划的求解策略[J].河北工业大学学报,2006,35(3):63-67. 被引量：5
5施荣华,莫锐,赵文涛.一种基于冲突检测的无关联规则集匹配算法[J].计算机工程与科学,2010,32(10):1-4. 被引量：7
6曾道建,来斯惟,张元哲,刘康,赵军.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报（自然科学版）,2013,37(3):279-283. 被引量：12
7Yan-yan SONG,Ying LU.用于分类与预测的决策树分析（英文）[J].上海精神医学,2015,27(2):130-135. 被引量：57
8刘洁群.基于谓词推理的冲突检测算法[J].吉林大学学报（理学版）,2016,54(1):112-115. 被引量：2
9李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：127
10金磐石,万光明,沈丽忠.基于知识图谱的小微企业贷款申请反欺诈方案[J].大数据,2019,5(4):100-112. 被引量：15

引证文献5

1袁俊,刘国柱,梁宏涛,罗清彩.知识图谱在商业银行风控领域的研究与应用综述[J].计算机工程与应用,2022,58(19):37-52. 被引量：9
2汪才钦,周渝皓,张顺香,王琰慧,王小龙.基于语境增强的新能源汽车投诉文本方面-观点对抽取[J].计算机应用,2024,44(8):2430-2436.
3吴海洋,吴子辰,吴博科,高华,王莘然,胡伟.基于预训练语言模型的电网检修计划异常检测[J].情报工程,2024,10(4):14-24.
4乔波,袁铨,周子濠.基于BERT-CRF的中药材属性抽取方法研究[J].黑龙江科学,2024,15(24):84-88.
5聂凡,刘德喜,张子靖,刘喜平,廖国琼,万常选.融合词先验知识的MOOCs课程概念抽取[J].中文信息学报,2025,39(1):101-111.

二级引证文献9

1刘江,赵开功,张晓蕾,闫力维,李长明,王睿迪.基于知识图谱的选煤法规标准培训平台及应用[J].中国安全科学学报,2024,34(S01):226-233.
2孙水发,李小龙,李伟生,雷大江,李思慧,杨柳,吴义熔.图神经网络应用于知识图谱推理的研究综述[J].计算机科学与探索,2023,17(1):27-52. 被引量：17
3邱云飞,邢浩然,李刚.矿井建设知识图谱构建研究综述[J].计算机工程与应用,2023,59(7):64-79. 被引量：5
4杨德相,李剑锋.基于知识图谱的标准知识管理研究[J].标准科学,2023(4):39-45. 被引量：4
5吴培良,王天成,金鑫龙,闫鹏宇,张云川,陈雯柏,毛秉毅,高国伟.家庭服务机器人领域知识图谱构建与应用[J].计算机技术与发展,2023,33(8):172-179. 被引量：1
6卢彦杰,盛威,刘伟,胡为.《五十二病方》知识图谱的构建与应用研究[J].中国数字医学,2023,18(10):105-110. 被引量：1
7魏凌,朱子寒.以知识图谱为基础的风险控制体系在智慧医院招标采购中的构建与应用[J].中国医疗设备,2024,39(3):111-115.
8王秀鸾,张鹏展,杨鑫,刘杰.基于知识图谱的银行中小企业营销模型构建[J].青岛理工大学学报,2024,45(3):162-168.
9华夏银行成都分行重点课题研究组,曾红.数字孪生下的金融风险治理研究[J].金融科技时代,2025,33(3):40-44.

1曾文杰.武汉市举办社会组织负责人培训班传达贯彻党的十九届六中全会精神[J].中国社会组织,2021(23):11-11.
2宋蒙.AR技术与数字文化公园建设[J].教育传媒研究,2021(6):89-92. 被引量：4
3李德光,赵建明,王鑫.常规安全监督与新时代互联网管理融合探讨[J].城市燃气,2021(S01):213-216.
4曾渊浩,康恬静.VR技术融合体育领域应用发展研究[J].拳击与格斗,2021(22):7-8.
5王娟,张卫芳.“4P”教学法与儿童数学素养提升[J].教育艺术,2021(12):39-39.
6叶洲铭,王瑛,王勇.基于多任务学习注意力交互模型的方面级情感分析[J].计算机科学与应用,2022,12(1):10-16.
7张育新,杜智岚,杨文丽,郑伟.航天强国信念构筑科研育人体系[J].科学咨询,2021(50):5-8.
8张洁,陈霞.精准评价在小学低年级阅读教学中的价值及实践探索[J].基础教育论坛,2022(5):53-54.
9王小鹏,孙媛媛,林鸿飞.基于刑事Electra的编-解码关系抽取模型[J].计算机应用,2022,42(1):87-93. 被引量：1
10费浩芳.小学语文整本书阅读的多维路径探讨[J].教学与管理,2022(8):31-34. 被引量：8

中文信息学报

2022年第1期

浏览历史

内容加载中请稍等...

基于预训练语言模型的商品属性抽取被引量：5

参考文献3

二级参考文献35

共引文献16

同被引文献35

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的商品属性抽取 被引量：5

参考文献3

二级参考文献35

共引文献16

同被引文献35

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的商品属性抽取被引量：5