期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于预训练模型标记器重构的藏文分词系统
1
作者 杨杰 尼玛扎西 +2 位作者 仁青东主 祁晋东 才让东知 《计算机应用》 北大核心 2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。 展开更多
关键词 藏语信息处理 藏文分词模型 预训练模型 自然语言处理 标记器重构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部