在数据处理领域,高维特征与类别不平衡问题已成为诸多研究面临的棘手挑战。鉴于此,文章以SFE算法作为坚实基石,创新性地提出了一种专门面向不平衡数据情境的二阶段特征选择算法——SFE-TSFS(a two-stage feature selection algorithm fo...在数据处理领域,高维特征与类别不平衡问题已成为诸多研究面临的棘手挑战。鉴于此,文章以SFE算法作为坚实基石,创新性地提出了一种专门面向不平衡数据情境的二阶段特征选择算法——SFE-TSFS(a two-stage feature selection algorithm for imbalanced data based on SFE)。首先,针对SFE算法未能处理类别不平衡的局限,SFE-TSFS引入了Borderline-SMOTE方法生成符合要求的边界样本,以平衡数据分布。其次,为加速算法收敛并降低计算成本,在初始特征筛选阶段结合了模糊互信息方法,有效去除大量冗余特征。实验结果表明,与原SFE算法相比,文章所提出的算法在保证分类准确率的同时,运行时间和特征数量上均优于SFE算法,验证了SFE-TSFS算法的有效性。展开更多
文摘在数据处理领域,高维特征与类别不平衡问题已成为诸多研究面临的棘手挑战。鉴于此,文章以SFE算法作为坚实基石,创新性地提出了一种专门面向不平衡数据情境的二阶段特征选择算法——SFE-TSFS(a two-stage feature selection algorithm for imbalanced data based on SFE)。首先,针对SFE算法未能处理类别不平衡的局限,SFE-TSFS引入了Borderline-SMOTE方法生成符合要求的边界样本,以平衡数据分布。其次,为加速算法收敛并降低计算成本,在初始特征筛选阶段结合了模糊互信息方法,有效去除大量冗余特征。实验结果表明,与原SFE算法相比,文章所提出的算法在保证分类准确率的同时,运行时间和特征数量上均优于SFE算法,验证了SFE-TSFS算法的有效性。