-
题名基于预训练模型标记器重构的藏文分词系统
- 1
-
-
作者
杨杰
尼玛扎西
仁青东主
祁晋东
才让东知
-
机构
西藏大学信息科学技术学院
藏文信息技术教育部工程研究中心(西藏大学)
-
出处
《计算机应用》
北大核心
2025年第4期1199-1204,共6页
-
基金
新一代人工智能国家科技重大专项(2022ZD0116100)
省部共建藏语智能信息处理及应用国家重点实验室开放课题项目(2023⁃Z⁃006)。
-
文摘
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。
-
关键词
藏语信息处理
藏文分词模型
预训练模型
自然语言处理
标记器重构
-
Keywords
Tibetan language information processing
Tibetan word segmentation model
pre-trained model
natural language processing
tokenization reconstruction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-