-
题名新冠文本实体关系抽取及数据集构建方法研究
被引量:2
- 1
-
-
作者
杨崇洛
生龙
魏忠诚
王巍
-
机构
河北工程大学信息与电气工程学院
河北省安防信息感知与处理重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第8期97-104,共8页
-
基金
国家自然科学基金(61802107)
河北省高等学校科学技术研究项目(QN2020193,ZD2020171)。
-
文摘
实体关系抽取可有效地获取文本中的关键信息,利用新冠文本中的关键信息有助于切断疫情传播途径,发掘疫情传播源头。但该领域没有适合的公开有标注的数据集,针对该问题,通过分析新冠文本的语义表示和结构特点,提出一种针对新冠文本的实体关系定义,并根据实体关系定义对收集的数据进行实体标注和关系标注,在标注完成后,通过数据预处理等操作生成新冠文本实体关系抽取数据集。与公开数据集相比,该领域的数据集本文实体和关系分布较为密集,单一神经网络模型特征抽取能力较差,因此采用多种神经网络模型拼接的方法构建命名实体识别模型和关系抽取模型。通过模型的结果对数据集进行实验验证,实验结果证明该数据集可以应用于该领域的实体关系抽取任务。
-
关键词
数据集
实体关系定义
数据标注
双向循环神经网络
卷积神经网络
-
Keywords
dataset
entity and relationship definition
data labeling
bidirectional recurrent neural network
convolutional neural network
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-