-
题名法律案件要素识别混合专家大模型
- 1
-
-
作者
尹华
吴梓浩
柳婷婷
张佳佳
高子千
-
机构
广东财经大学数字经济学院
广东财经大学信息学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第12期3260-3271,共12页
-
基金
教育部人文社会科学研究青年基金项目(21YJCZH202)
广东省普通高校创新团队项目(2022WCXTD008)
广东省法学会法学研究委托课题项目(GDLS(2024C12))。
-
文摘
智能司法判决正向符合法律判案逻辑的方向转变。案件要素识别是近年来提出的一项基础任务。相比于前期的基于深度学习和机器阅读理解的识别方法,采用大模型的生成式要素识别方法具有进行复杂推理的潜力。但是,目前司法大模型在这类基础任务上的效果不佳。提出了一种对话式混合专家要素识别大模型。该模型针对案件特点设计了特定的Prompt,供ChatGLM3-6B-base大模型学习;通过全参微调该大模型获得基础要素识别能力,其权重供后续混合专家共享,降低大模型学习成本;针对不同案件类型场景和标签不平衡场景,在大模型的注意力层引入案件DoRA专家和标签DoRA专家模块,提高模型对任务的区分度;设计可学习门控实现标签专家选择。在CAIL2019和某省脱敏盗窃案件要素识别数据集上,对比了三类方法的九个基准模型,并进行模型消融实验。实验结果显示,提出的模型综合性能F1值高于最优模型性能5.9个百分点;在标签不平衡的CAIL2019数据集上,标签专家一定程度上能够减缓数据极度不平衡给模型带来的影响;同时,CAIL2019上训练的模型不再需要全参微调,通过案件专家和标签专家轻量级微调后,在某省盗窃案件中取得最佳效果,证明模型具有易扩展性。
-
关键词
案件要素识别
大模型
混合参数高效专家
提示词
-
Keywords
legal case element recognition
large language model
mixture of parameter-efficiency expert
prompt
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于预训练语言模型的案件要素识别方法
被引量:6
- 2
-
-
作者
刘海顺
王雷
孙媛媛
陈彦光
张书晨
林鸿飞
-
机构
大连理工大学计算机科学与技术学院
辽宁省人民检察院第三检察部
-
出处
《中文信息学报》
CSCD
北大核心
2021年第11期91-100,共10页
-
基金
国家重点研发计划项目(2018YFC0830603)
-
文摘
案件要素识别指将案件描述中重要事实描述自动抽取出来,并根据领域专家设计的要素体系进行分类,是智慧司法领域的重要研究内容。基于传统神经网络的文本编码难以提取深层次特征,基于阈值的多标签分类难以捕获标签间的依赖关系,因此该文提出了基于预训练语言模型的多标签文本分类模型。该模型采用以Layer-attentive策略进行特征融合的语言模型作为编码器,使用基于LSTM的序列生成模型作为解码器。在"CAIL2019"数据集上进行实验,该方法比基于循环神经网络的算法在F_(1)值上平均可提升7.4%,在相同超参数设置下宏平均F_(1)值比基础语言模型(BERT)平均提升3.2%。
-
关键词
案件要素识别
多标签文本分类
智慧司法
-
Keywords
case factor recognition
multi-label text classification
legal intelligence
-
分类号
D926
[政治法律—法学]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融入标签信息的民间借贷案情要素识别方法
- 3
-
-
作者
左江涛
张恒滔
-
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室
-
出处
《现代电子技术》
2023年第21期76-81,共6页
-
基金
云南省基础研究计划(202001AS070014)。
-
文摘
民间借贷案情要素识别旨在通过对裁判文书的理解,将能够反映案件主要事实的要素按照属性体系提取出来。现有的要素识别主要基于序列标注方法进行,但民间借贷案情要素包含的部分隐式要素无法被标注。文中将其转化为多标签文本分类任务,通过“民事BERT”对标签属性、要素标签与裁判文书事实描述进行语义编码,基于前馈神经网络构建的融合模块将事实描述表示分别和预定义的十类要素属性表示进行特征融合,再利用标签注意力机制获得某一要素属性下不同要素标签的关注度,最后借助分类器分别识别每一类属性的要素。实验结果显示,该方法在验证集和测试集上的平均F1值较基线模型BERT均有提升。
-
关键词
智慧司法
案件要素识别
多标签文本分类
民间借贷案件
自然语言处理
注意力
-
Keywords
intelligent justice
case factor recognition
multi⁃label text classification
private loan case
natural language processing
attention
-
分类号
TN911.7-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-