期刊文献+
共找到242,873篇文章
< 1 2 250 >
每页显示 20 50 100
基于BERT和自注意力SRU的AST级Webshell检测方法
1
作者 李道丰 宁梓桁 《信息网络安全》 北大核心 2025年第2期270-280,共11页
Webshell作为一种隐蔽性强、危害性大的网页后门,已在网络安全领域受到广泛关注。Webshell代码的混淆技术显著降低了传统检测方法的有效性,且许多传统检测模型未能有效应对高效处理大量数据的需求。因此,文章提出一种结合BERT词嵌入、双... Webshell作为一种隐蔽性强、危害性大的网页后门,已在网络安全领域受到广泛关注。Webshell代码的混淆技术显著降低了传统检测方法的有效性,且许多传统检测模型未能有效应对高效处理大量数据的需求。因此,文章提出一种结合BERT词嵌入、双向SRU网络结合自注意力机制的Webshell检测方法BAT-SRU。该方法通过抽象语法树提取代码特征,结合样本解混淆与危险函数统计提升特征质量,并采用BAT-SRU模型进行检测。现有方法如基于Word2Vec与双向GRU的检测方法、基于操作码序列与随机森林的分类方法以及基于Text-CNN的AST特征提取方法,存在特征表达不足和对复杂混淆代码适应性差的问题。相比上述方法,BAT-SRU在检测PHP Webshell上性能更优异,得到了准确率99.68%、精确率99.13%、召回率99.22%和F1值99.18%的实验结果。此外,与RNN及其变体模型相比,BAT-SRU在训练时间上可以节约23.47%,在推理时间上可以节省40.14%。 展开更多
关键词 PHP Webshell 抽象语法树 bert词嵌入 SRU 自注意力
在线阅读 下载PDF
基于Sentence-BERT与孤立森林算法的专利新颖性评估
2
作者 邓娜 王雨佳 +1 位作者 杨洋 陈旭 《情报杂志》 北大核心 2025年第2期174-182,共9页
[研究目的]面对专利数量的迅猛增长,采用人工方法评估专利新颖性变得愈发困难,且目前专利新颖性评估研究过度聚焦于技术层面,未能综合考虑专利的其他信息因素。因此,实现更高效、客观的专利新颖性评估具有重要的现实意义。[研究方法]提... [研究目的]面对专利数量的迅猛增长,采用人工方法评估专利新颖性变得愈发困难,且目前专利新颖性评估研究过度聚焦于技术层面,未能综合考虑专利的其他信息因素。因此,实现更高效、客观的专利新颖性评估具有重要的现实意义。[研究方法]提出一种基于Sentence-BERT与孤立森林算法的专利新颖性评估方法。首先,使用专利标题与IPC分类号分别作为专利的应用方向与功能分类特征,再通过BiLSTM-CRF模型对专利摘要进行关键技术抽取作为实施方法特征;其次,采用Sentence-BERT对上述特征进行文本向量化表示后组合输入至孤立森林算法获得离群专利集;最后,通过技术量权值过滤法提高专利新颖性评估的精度。[研究结果/结论]以金融科技领域专利进行实证研究,结果表明,该评估方法准确率相较专业专利分析平台方法提升了9%~11%。证明了该方法在专利新颖性评估中的有效性,能为后续专利审核工作和高价值专利分析提供参考。 展开更多
关键词 专利评估 专利新颖性 BiLSTM-CRF Sentence-bert 孤立森林算法 机器学习
在线阅读 下载PDF
面向中文小样本命名实体识别的BERT优化方法
3
作者 杨三和 赖沛超 +3 位作者 傅仰耿 王一蕾 叶飞扬 张林 《小型微型计算机系统》 北大核心 2025年第3期602-611,共10页
为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于... 为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于提示学习与对比学习的BERT预训练策略.在提示学习阶段,设计掩码填充模板来训练BERT预测出每个标记对应的中文标签词.在对比学习阶段,利用引导模板训练BERT学习每个标记和标签词之间的相似性与差异性.其次,针对中文缺乏明确的词边界所带来的复杂性和挑战性,修改BERT模型的第一层Transformer结构,并设计了一种带有混合权重引导器的特征融合模块,将词典信息集成到BERT底层中.最后,实验结果验证了所提方法在中文小样本NER任务中的有效性与优越性.该方法结合BERT和条件随机场(CRF)结构,在4个采样的中文NER数据集上取得了最好的性能.特别是在Weibo数据集的3个小样本场景下,模型的F 1值分别达到了63.78%、66.27%、70.90%,与其他方法相比,平均F 1值分别提高了16.28%、14.30%、11.20%.此外,将ProConBERT应用到多个基于BERT的中文NER模型中能进一步提升实体识别的性能. 展开更多
关键词 中文小样本命名实体识别 提示学习 对比学习 预训练 特征融合 bert模型
在线阅读 下载PDF
基于BERT的多特征融合中文命名实体识别
4
作者 孙璐冰 康怡琳 +1 位作者 王俊 朱容波 《中南民族大学学报(自然科学版)》 CAS 2025年第1期68-74,共7页
针对中文命名实体识别往往需要引入外部知识获取深层语义信息,以及基于RNN结构的模型对空间特征提取效果不佳等问题,提出了基于BERT的多特征融合中文命名实体识别模型.通过BERT模型获取输入文本序列的深层次语义信息,利用MHSA模块和IDCN... 针对中文命名实体识别往往需要引入外部知识获取深层语义信息,以及基于RNN结构的模型对空间特征提取效果不佳等问题,提出了基于BERT的多特征融合中文命名实体识别模型.通过BERT模型获取输入文本序列的深层次语义信息,利用MHSA模块和IDCNN模块增强特征提取能力.前者利用相对位置编码和多头自注意力机制来捕获输入序列的隐藏特征,使模型能够考虑到字符间的距离方向信息;后者则可以对空间特征建模,获得输入序列的全局信息.通过将两个模块的输出特征进行连接,增强模型性能.实验结果表明:模型在MSRA、Resume和Weibo三个公共数据集上的F1值分别达到了95.12%、95.45%和66.14%,优于其它最新模型,验证了模型在中文命名实体识别上的有效性. 展开更多
关键词 自然语言处理 中文命名实体识别 bert模型 迭代膨胀卷积神经网络 自注意力
在线阅读 下载PDF
一种基于注意力机制的BERT-CNN-GRU检测方法
5
作者 郑雅洲 刘万平 黄东 《计算机工程》 北大核心 2025年第1期258-268,共11页
针对现有检测方法对短域名检测性能普遍较差的问题,提出一种BERT-CNN-GRU结合注意力机制的检测方法。通过BERT提取域名的有效特征和字符间组成逻辑,根据并行的融合简化注意力的卷积神经网络(CNN)和基于多头注意力机制的门控循环单元(GRU... 针对现有检测方法对短域名检测性能普遍较差的问题,提出一种BERT-CNN-GRU结合注意力机制的检测方法。通过BERT提取域名的有效特征和字符间组成逻辑,根据并行的融合简化注意力的卷积神经网络(CNN)和基于多头注意力机制的门控循环单元(GRU)提取域名深度特征。CNN使用n-gram排布的方式提取不同层次的域名信息,并采用批标准化(BN)对卷积结果进行优化。GRU能够更好地获取前后域名的组成差异,多头注意力机制在捕获域名内部的组成关系方面表现出色。将并行检测网络输出的结果进行拼接,最大限度地发挥两种网络的优势,并采用局部损失函数聚焦域名分类问题,提高分类性能。实验结果表明,该方法在二分类上达到了最优效果,在短域名多分类数据集上15分类的加权F1值达到了86.21%,比BiLSTM-Seq-Attention模型提高了0.88百分点,在UMUDGA数据集上50分类的加权F1值达到了85.51%,比BiLSTM-Seq-Attention模型提高了0.45百分点。此外,该模型对变体域名和单词域名生成算法(DGA)检测性能较好,具有处理域名数据分布不平衡的能力和更广泛的检测能力。 展开更多
关键词 恶意短域名 bert预训练 批标准化 注意力机制 门控循环单元 并行卷积神经网络
在线阅读 下载PDF
基于BERT模型自适应的科技项目申报书关键文本抽取方法
6
作者 徐晨阳 李子伦 +1 位作者 张兆娜 杨冬菊 《科技通报》 2025年第1期8-14,共7页
科技项目申报书内容涵盖了科技领域主要的研究方向和创新性。为提升科技领域项目文本关键内容的抽取效果,本文提出了一种基于BERT(bidirectional encoder representations from transformers)模型自适应的科技项目申报书关键文本抽取方... 科技项目申报书内容涵盖了科技领域主要的研究方向和创新性。为提升科技领域项目文本关键内容的抽取效果,本文提出了一种基于BERT(bidirectional encoder representations from transformers)模型自适应的科技项目申报书关键文本抽取方法。在该方法中,首先进行原始文本的预处理;其次,将BERT和伪标签相结合进行模型训练,并构建自适应阈值确保模型训练最优化;最后,本文将模型工程化,进行实际应用。通过实验对比验证:提出的方法在文本抽取过程中表现出良好的性能,数据标注准确度随着数据规模不断增大而呈现提升;该方法在准确率、精确率、召回率与F1值等方面,均优于模型LSTM+SAT(long short-term memory+short-term memery)和模型BERT+PL(BERT+pseudo label)。 展开更多
关键词 bert模型 自适应 伪标签 文本抽取 模型训练
在线阅读 下载PDF
基于BERT-BiLSTM模型的虚假新闻检测
7
作者 张敏超 蒲秋梅 黄方俐 《中国电子科学研究院学报》 2025年第1期33-40,共8页
随着互联网的快速发展,虚假新闻的传播成为全球性问题,严重影响社会稳定和信息安全,因此,如何有效识别虚假新闻已成为自然语言处理领域的研究重点之一。文中提出了一种基于BERT的虚假新闻检测模型。该模型首先通过对预训练的BERT模型进... 随着互联网的快速发展,虚假新闻的传播成为全球性问题,严重影响社会稳定和信息安全,因此,如何有效识别虚假新闻已成为自然语言处理领域的研究重点之一。文中提出了一种基于BERT的虚假新闻检测模型。该模型首先通过对预训练的BERT模型进行微调,以获取新闻文本的深层语义表示;然后,在其顶部分别添加BiLSTM层和卷积神经网络(Convolutional Neural Networks,CNN)层,以捕捉文本的长程依赖关系和局部上下文特征;最后,通过Softmax层实现虚假新闻的分类。实验在新闻文本数据集上进行,结果显示,BERT-BiLSTM模型在英文数据集上的准确率达到96.14%,在中文数据集上的准确率达到97.32%。相比其他模型,BERT-BiLSTM在虚假新闻检测中表现更为优异,具有良好的实际应用价值,对维护网络信息安全具有重要意义。 展开更多
关键词 bert模型 BiLSTM模型 虚假新闻检测 深度学习
在线阅读 下载PDF
融合图嵌入和BERT嵌入的文本分类模型
8
作者 常慧霞 李孝忠 《天津科技大学学报》 2025年第1期72-80,共9页
文本分类作为自然语言领域中的重要任务之一,广泛应用于问答系统、推荐系统以及情感分析等相关任务中。为了提取文本数据中的复杂语义特征信息并捕获全局的图信息,提出一种融合图嵌入和BERT(bidirectional encoder representation from ... 文本分类作为自然语言领域中的重要任务之一,广泛应用于问答系统、推荐系统以及情感分析等相关任务中。为了提取文本数据中的复杂语义特征信息并捕获全局的图信息,提出一种融合图嵌入和BERT(bidirectional encoder representation from Transformers)嵌入的文本分类模型。该模型引入双级注意力机制考虑不同类型节点的重要性以及同一类型不同相邻节点的重要性,同时采用BERT预训练模型获得包含上下文信息的嵌入并解决一词多义的问题。该模型把所有单词和文本均视为节点,为整个语料库构建一张异构图,将文本分类问题转化为节点分类问题。将双级注意力机制与图卷积神经网络进行融合,双级注意力机制包含类型级注意力和节点级注意力。类型级注意力机制捕获不同类型的节点对某一节点的重要性,节点级注意力机制可以捕获相同类型的相邻节点对某一节点的重要性。将BERT模型获得的文本中局部语义信息与经图卷积神经网络得到的具有全局信息的图嵌入表示相结合,得到最后的文本嵌入表示,并完成文本分类。在4个广泛使用的公开数据集上与7个基线模型进行对比实验,结果表明本文模型提高了文本分类的准确性。 展开更多
关键词 文本分类 图卷积神经网络 注意力机制 bert
在线阅读 下载PDF
基于BERT的多层次特征融合的舆情文本政策意愿识别模型研究
9
作者 翁克瑞 周雅洁 於世为 《中国地质大学学报(社会科学版)》 北大核心 2025年第1期131-140,共10页
传统政策需求研究因成本和时间因素,逐渐转向利用社交媒体进行政策需求智能发现。尽管社交媒体提供了丰富的公众政策意愿,但捕捉其中的政策观点受到语义模糊性和复杂评论网络关系的挑战。为解决以上问题,本文提出ConTextBERT-CNN模型,... 传统政策需求研究因成本和时间因素,逐渐转向利用社交媒体进行政策需求智能发现。尽管社交媒体提供了丰富的公众政策意愿,但捕捉其中的政策观点受到语义模糊性和复杂评论网络关系的挑战。为解决以上问题,本文提出ConTextBERT-CNN模型,以识别社交媒体上的公众政策意愿。该模型结合了优化后的BERT预训练模型和改进的TextCNN架构,通过全词掩码技术增强了中文语义理解,并融合不同层级的解码层输出实现对多层语义信息的精细提取。实验结果表明,ConTextBERT-CNN模型在处理新能源汽车、碳中和、分时电价政策主题的数据集时,分别达到了86.4%、82.0%、82.5%的分类准确率,显著优于传统的深度学习方法,证明其在捕捉和解析公众政策意愿方面具有高效性和准确性。 展开更多
关键词 社交媒体 政策需求 bert 舆情政策文本
在线阅读 下载PDF
基于BERT与要素提取的相似案例匹配
10
作者 焦宇超 阎刚 《智能计算机与应用》 2025年第1期130-135,共6页
相似法律案件检索是一项特殊的检索任务,对于给定的查询案例,需要从给定的候选案例中搜索相似的案例。与传统的文本匹配不同,法律案件匹配具有文本较长、主题性强的特点。针对上述问题,本文提出了一种基于案件要素的相似案例检索方法。... 相似法律案件检索是一项特殊的检索任务,对于给定的查询案例,需要从给定的候选案例中搜索相似的案例。与传统的文本匹配不同,法律案件匹配具有文本较长、主题性强的特点。针对上述问题,本文提出了一种基于案件要素的相似案例检索方法。首先对BERT模型使用通用语料进行微调;然后采用段落聚合方法,对案件文书上下文语义信息进行编码,同时将法律文书数据融入模型。本文在LeCaRD数据集上进行了广泛的实验,实验结果表明,本文提出的模型优于现有模型。 展开更多
关键词 相似案例匹配 bert 长文本 法律要素
在线阅读 下载PDF
基于MD-BERT-LGBM的智能诊疗与预测模型设计
11
作者 岳晓磊 刘欣 《信息技术》 2025年第1期126-132,共7页
针对目前医疗资源紧张且难以实现精准预测病情发展的问题,文中提出了一种基于MD-BERT-LGBM的智能诊疗与预测模型。该模型引入了多模态高维度向量来表征信息,以此提高模型精确度。采用双向编码BERT替代传统的CNN算法来处理文本信息数据,... 针对目前医疗资源紧张且难以实现精准预测病情发展的问题,文中提出了一种基于MD-BERT-LGBM的智能诊疗与预测模型。该模型引入了多模态高维度向量来表征信息,以此提高模型精确度。采用双向编码BERT替代传统的CNN算法来处理文本信息数据,同时在每个BERT模块内融合了KMP识别算法。通过归一化指数函数来预训练和校准BERT模型,用LGBM机器学习算法高效地处理表征多模态高维度向量数据。多组实验测试结果表明,与同类的CNN-MDRP模型相比,所提模型的诊疗与预测精确度分别提升了1.1%和4.0%,具有良好的可靠性。 展开更多
关键词 智能诊疗 预测模型 bert-LGBM 机器学习 多模态
在线阅读 下载PDF
利用扩展词嵌入BERT的地表水系地理命名实体抽取模型
12
作者 郑旭野 陈涛 周婧娟 《地理空间信息》 2025年第2期1-6,共6页
地理知识图谱构建的重要任务之一是地理命名实体的识别。中文文本中词汇结构灵活,词汇边界不明显,地理领域的中文标注数据集稀缺,因此中文文本的地理命名实体识别一直是研究难点之一。针对蕴含地理信息的海量网络文本中的地理命名实体... 地理知识图谱构建的重要任务之一是地理命名实体的识别。中文文本中词汇结构灵活,词汇边界不明显,地理领域的中文标注数据集稀缺,因此中文文本的地理命名实体识别一直是研究难点之一。针对蕴含地理信息的海量网络文本中的地理命名实体识别任务,建立了基于维基百科数据的地表水系数据集以及领域词典,并提出了一种基于扩展词嵌入的词汇增强方法,对于BERT预训练模型进行词汇增强,并结合了BiGRU与CRF网络进行上下文特征识别与学习,构建了EXPBERT-BiGRU-CRF的命名实体识别模型,实验表明,该模型在地表水系数据集上达到了95.94%的F1值,比无词汇增强Bert模型提高了4.94%,相较于其他模型的精度也有大幅度提升,能更加准确地识别地理命名实体。 展开更多
关键词 地理知识图谱 bert 命名实体识别 词汇增强
在线阅读 下载PDF
融合BERT与图卷积网络的软件需求自动分类
13
作者 关慧 高琦 韩志远 《计算机系统应用》 2025年第1期145-152,共8页
考虑到软件需求文本区别于其他普通文本的独特领域信息外,还包含一些重要的上下文关系以及固有的二义性问题,本文提出了一个图卷积与BERT融合的软件需求自动分类模型——BERT-FGCN(BERT-FusionGCN),将图卷积网络(GCN)用于软件需求分类领... 考虑到软件需求文本区别于其他普通文本的独特领域信息外,还包含一些重要的上下文关系以及固有的二义性问题,本文提出了一个图卷积与BERT融合的软件需求自动分类模型——BERT-FGCN(BERT-FusionGCN),将图卷积网络(GCN)用于软件需求分类领域,利用GCN对邻居节点信息进行信息传播和特征聚合的优势,捕捉需求语句中单词或句子之间的上下文关系,以进一步提高需求分类的结果.首先构建需求文本的文本共现图和依存句法图,将两种图进行融合来捕获句子的结构信息,利用GCN对建模后的需求语句的图结构进行卷积得到图向量,最后将图向量与BERT特征提取后得到的向量进行融合,以此来对软件需求文本自动分类.在PROMISE数据集上进行实验,BERT-FGCN在二分类上的F1分数达到95%,多分类任务的F1分数提高2%. 展开更多
关键词 软件需求分类 bert 图卷积网络(GCN) 非功能需求 PROMISE
在线阅读 下载PDF
基于BERT的中药材治疗胃病的命名实体识别
14
作者 熊磊 《软件导刊》 2025年第1期57-64,共8页
中药材用于胃病治疗的命名实体识别,是中药材开发领域文本信息挖掘的重要任务,也是构建知识图谱最重要的基础任务。为了更好地实现对中药材治疗胃病实体的提取,实验设计了5个命名实体识别模型进行实验比较,在预训练层、神经网络层,输出... 中药材用于胃病治疗的命名实体识别,是中药材开发领域文本信息挖掘的重要任务,也是构建知识图谱最重要的基础任务。为了更好地实现对中药材治疗胃病实体的提取,实验设计了5个命名实体识别模型进行实验比较,在预训练层、神经网络层,输出层都进行了不同设计,选择了更适合的BERT-BILSTM-CRF模型。首先,通过BERT生成特征提取层BILSTM的词向量;其次,利用BILSTM获取文本前后两个方向的特征得到相关特征向量;最后,利用CRF进行解码、标签预测,并讨论了模型各部分对实验的影响。实验表明,所提模型在自创数据集上的准确率、召回率、F1值分别为85.20%、85.47%、85.33%,相较于现有方法表现较好。 展开更多
关键词 中药材胃病治疗 命名实体识别 深度学习 bert BILSTM-CRF
在线阅读 下载PDF
面向跨提示中文作文自动评分的多尺度BERT-wwm模型
15
作者 赵国良 陈亮 王珺琳 《通信与信息技术》 2025年第1期114-117,共4页
跨提示中文作文自动评分任务是真实教育环境中广泛应用的方法,然而,在使用预训练模型实现的过程中主要涉及两个问题,一是不同提示提取的文本特征差异,限制模型在其他提示上的泛化能力;二是传统BERT预训练模型的分词方法未能充分考虑中... 跨提示中文作文自动评分任务是真实教育环境中广泛应用的方法,然而,在使用预训练模型实现的过程中主要涉及两个问题,一是不同提示提取的文本特征差异,限制模型在其他提示上的泛化能力;二是传统BERT预训练模型的分词方法未能充分考虑中文分词的需求。针对这些问题,一方面,使用基于BERT模型的多尺度文本表示方法,从文章、段落和标记三个不同尺度来提取文本特征,增强提取通用文本特征的能力;另一方面,使用中文BERT-wwm模型来增强模型对中文语义的理解能力,该模型采用全词掩码的预训练方式,解决BERT模型难以理解复杂中文语法和逻辑的问题。实验结果表明,在自制数据集中,模型的预测得分与真实人工评分具有较高的一致性,达到0.736,并在文本特征高度差异化的题材中表现良好。 展开更多
关键词 跨提示作文自动评分 自然语言处理 深度学习 bert
在线阅读 下载PDF
Generating Abstractive Summaries from Social Media Discussions Using Transformers
16
作者 Afrodite Papagiannopoulou Chrissanthi Angeli Mazida Ahmad 《Open Journal of Applied Sciences》 2025年第1期239-258,共20页
The rise of social media platforms has revolutionized communication, enabling the exchange of vast amounts of data through text, audio, images, and videos. These platforms have become critical for sharing opinions and... The rise of social media platforms has revolutionized communication, enabling the exchange of vast amounts of data through text, audio, images, and videos. These platforms have become critical for sharing opinions and insights, influencing daily habits, and driving business, political, and economic decisions. Text posts are particularly significant, and natural language processing (NLP) has emerged as a powerful tool for analyzing such data. While traditional NLP methods have been effective for structured media, social media content poses unique challenges due to its informal and diverse nature. This has spurred the development of new techniques tailored for processing and extracting insights from unstructured user-generated text. One key application of NLP is the summarization of user comments to manage overwhelming content volumes. Abstractive summarization has proven highly effective in generating concise, human-like summaries, offering clear overviews of key themes and sentiments. This enhances understanding and engagement while reducing cognitive effort for users. For businesses, summarization provides actionable insights into customer preferences and feedback, enabling faster trend analysis, improved responsiveness, and strategic adaptability. By distilling complex data into manageable insights, summarization plays a vital role in improving user experiences and empowering informed decision-making in a data-driven landscape. This paper proposes a new implementation framework by fine-tuning and parameterizing Transformer Large Language Models to manage and maintain linguistic and semantic components in abstractive summary generation. The system excels in transforming large volumes of data into meaningful summaries, as evidenced by its strong performance across metrics like fluency, consistency, readability, and semantic coherence. 展开更多
关键词 Abstractive Summarization transformers Social Media Summarization Transformer Language Models
在线阅读 下载PDF
基于BERT与LightGBM的人岗匹配模型
17
作者 段雪艳 吕卫东 +1 位作者 冯俊磊 郝月华 《计算机科学与应用》 2025年第1期46-53,共8页
在求职招聘市场中,信息不对称导致“逆向选择”,加大了企业招聘和求职者求职的难度。线上招聘平台在疫情时期更加重要,对人岗匹配精度要求更高。传统匹配方式受限,深度学习技术特别是BERT模型和集成模型受到关注。当前学者在研究人岗匹... 在求职招聘市场中,信息不对称导致“逆向选择”,加大了企业招聘和求职者求职的难度。线上招聘平台在疫情时期更加重要,对人岗匹配精度要求更高。传统匹配方式受限,深度学习技术特别是BERT模型和集成模型受到关注。当前学者在研究人岗匹配问题时,采用常见的TF-IDF词向量表示方法和Word2Vec词向量表示方法来对中文文本进行表征,但是由于科学的进步,当下用BERT模型能更好地读取文本语义,因此本文将BERT模型引入到人岗匹配领域中,采取了基于BERT模型的词向量表示和LightGBM模型的人岗匹配方法,以提升匹配精确度和效率,与多种机器学习模型的预测结果相比较之后,最终发现,在这两种方法的结合下,在本文所构建的人才是否投递模型中的精确度达到了0.886,在岗位是否认可模型中的精确度达到了0.926,由这两个模型的效果可以看出BERT模型和LightGBM模型的结合,可以为招聘平台提供精准模型。In the job recruitment market, information asymmetry leads to “adverse selection”, which increases the difficulty for both enterprises in hiring and job seekers in finding employment. Online recruitment platforms have become even more crucial during the pandemic, placing higher demands on the accuracy of person-job matching. Traditional matching methods are limited, and deep learning technologies, especially the BERT model and ensemble models, have garnered attention. In current research on person-job fit, scholars often represent Chinese text data using common methods such as TF-IDF word vectors and Word2Vec word vectors. However, due to advancements in science and technology, the BERT model is now better at capturing textual semantics. Therefore, this paper introduces the BERT model into the field of person-job fit. This paper proposes a person-job matching method based on the BERT and ensemble models to improve matching accuracy and efficiency. After comparing the prediction results with various machine learning models, it was ultimately found that with the combination of these two methods, the accuracy of the talent submission model constructed in this paper reached 0.886, and the accuracy of the job acceptance model reached 0.926. The effectiveness of these two models demonstrates that the combination of the BERT model and the LightGBM model can provide a precise model for recruitment platforms. 展开更多
关键词 bert模型 人岗匹配 LightGBM模型
在线阅读 下载PDF
基于分数阶2D-TFCDM映射和改进的Hilbert曲线置乱的图像加密算法
18
作者 高颖颖 田野 《计算机工程与科学》 北大核心 2025年第1期66-74,共9页
为增强数字图像在传输中的安全性,同时解决图像像素间关联性强、数据量大等问题,提出了一种基于分数阶2D-TFCDM映射和改进的Hilbert曲线置乱的图像加密算法。首先,利用分数阶2D-TFCDM映射产生伪随机序列;其次,对明文图像进行分块,将改进... 为增强数字图像在传输中的安全性,同时解决图像像素间关联性强、数据量大等问题,提出了一种基于分数阶2D-TFCDM映射和改进的Hilbert曲线置乱的图像加密算法。首先,利用分数阶2D-TFCDM映射产生伪随机序列;其次,对明文图像进行分块,将改进的Hilbert曲线对子块图像进行置乱,为充分地削弱图像的相关性,进一步提高图像的置乱度,再对图像进行M×N次Arnold变换,同时改变每次Arnold变换的参数;最后,将异或运算与明文图像的平均像素值相结合进行扩散,得到最终的加密图像。对3幅256×256大小的灰度图像进行测试,结果表明,加密图像的像素间关联性较弱,具有较好的加密效果、良好的统计特征和强大的抗干扰能力,可有效抵抗各种常见的攻击,在图像加密方面具有较好的实用价值。 展开更多
关键词 图像加密 分数阶2D-TFCDM映射 改进的Hilbert曲线 分块置乱 Arnold变换
在线阅读 下载PDF
基于BERT模型的医疗安全事件智能分类研究与实践 被引量:1
19
作者 赵从朴 袁达 +3 位作者 朱溥珏 周炯 陈政 彭华 《医学信息学杂志》 CAS 2024年第1期27-32,38,共7页
目的/意义改进医疗安全事件分类评估模式,提升工作效率和时效性。方法/过程选取既往医疗安全事件数据进行预处理,利用BERT模型进行训练、测试、迭代优化,构建医疗安全事件智能分类预测模型。结果/结论利用该模型对2022年1-11月临床科室... 目的/意义改进医疗安全事件分类评估模式,提升工作效率和时效性。方法/过程选取既往医疗安全事件数据进行预处理,利用BERT模型进行训练、测试、迭代优化,构建医疗安全事件智能分类预测模型。结果/结论利用该模型对2022年1-11月临床科室上报的466例医疗安全事件进行分类,F1值达0.66。将BERT模型应用于医疗安全事件分类评估辅助,可提升工作效率和时效性,有助于及时干预医疗安全风险隐患。 展开更多
关键词 医疗安全事件 bert 深度学习 智能分类
在线阅读 下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:3
20
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 Roberta模型 图注意力机制 Transformer机制
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部