-
题名融合敏感词典和异构图的汉泰跨语言敏感信息识别
- 1
-
-
作者
朱栩冉
余正涛
张勇丙
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《计算机工程与设计》
北大核心
2024年第7期2150-2156,共7页
-
基金
国家自然科学基金项目(U21B2027、61972186、62266028)
云南省重大科技专项计划基金项目(202202AD080003)。
-
文摘
通用跨语言文本分类模型识别毒品、暴力和自然灾害等敏感信息不准确,且汉泰双语敏感词表示多样化、难对齐导致不同语言信息聚合能力较弱,为此提出一种融合敏感词典和异构图的汉泰跨语言敏感信息识别方法。利用汉泰敏感词典构建具有文档对齐和词对齐的跨语言异构图结构,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图;基于多语言预训练模型对文档节点和词节点进行表征;通过多层图卷积神经网络对输入文档进行编码,使用敏感信息分类器对文档进行分类预测。实验结果表明,所提方法准确率较基线模型提高了5.83%。
-
关键词
敏感词典
跨语言
异构图
图卷积神经网络
敏感信息识别
多语言预训练模型
双语对齐
-
Keywords
sensitive dictionary
cross-lingual
heterogeneous graph
graph convolutional neural network
sensitive information identification
multi-lingual pre-trained model
bilingual alignment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于差分隐私的网络图像敏感数据挖掘方法
被引量:4
- 2
-
-
作者
杜玉昌
-
机构
厦门软件职业技术学院招生处
-
出处
《新乡学院学报》
2023年第3期30-33,共4页
-
文摘
常规的敏感图像数据挖掘方法是利用原有数据库进行图像敏感信息识别,这使新兴敏感数据无法被有效挖掘。为此,设计了基于差分隐私的网络图像敏感数据挖掘方法。首先,挖掘出图像敏感数据差分特征,剔除疑似敏感的图像数据。然后,利用差分隐私算法,生成网络图像的视觉敏感词典,有效识别新兴敏感数据。最后,构建网络图像敏感数据挖掘模型,进一步提高敏感数据挖掘精准度。实验结果表明所提方法挖掘的敏感数据更加准确。
-
关键词
差分隐私
网络图像
敏感数据
挖掘方法
差分特征
敏感词典
-
Keywords
differential privacy
network image
sensitive data
excavation method
differential characteristics
sensitive dictionary
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于字词特征自注意力学习的社交媒体文本分类方法
被引量:4
- 3
-
-
作者
王晓莉
叶东毅
-
机构
福州大学数学与计算机科学学院
福州大学空间数据挖掘与信息共享教育部重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2020年第4期287-294,共8页
-
基金
国家自然科学基金项目(No.61672158)
福建省高校产学合作科技项目(No.2018H6010)资助.
-
文摘
社交媒体文本中突出的长尾效应和过量的词典外词汇(OOV)导致严重的特征稀疏问题,影响分类模型的准确率.针对此问题,文中提出基于字词特征自注意力学习的社交媒体文本分类方法.在字级别构建全局特征,用于学习文本中各词的注意力权值分布.改进现有的多头注意力机制,降低参数规模和计算复杂度.为了更好地分析字词特征融合的作用,提出OOV词汇敏感度,用于衡量不同类型的特征受OOV词汇的影响.多组社交媒体文本分类任务的实验表明,文中方法在融合字特征和词特征方面的有效性与分类准确度均有较明显的提升.此外,OOV词汇敏感度指标的量化结果验证文中方法是可行有效的.
-
关键词
社交媒体文本分类
自注意力机制
字词特征融合
词典外词汇敏感度
-
Keywords
Social Media Text Classification
Self-attention Learning
Character-Word Feature Fusion
Out of Vocabulary Sensitivity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-