-
题名基于多层级语言特征融合的中文文本可读性分级模型
- 1
-
-
作者
谭可人
兰韵诗
张杨
丁安琪
-
机构
华东师范大学数据科学与工程学院
华东师范大学国际汉语文化学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第5期41-52,共12页
-
基金
国家自然科学基金(62137001)
教育部语合中心重点项目(21YH21B)
+1 种基金
教学资源建设重点项目(YHJC22ZD067)
华东师范大学新中文教育专项课题(2022ECNU-WHCCYJ-29,2022ECNU-WHCCYJ-31)。
-
文摘
中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。
-
关键词
中文文本可读性分级
多层级特征融合
深度模型
-
Keywords
Chinese text readability grading
multi-level linguistic feature fusion
deep model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-