基于支持向量机递归特征消除和特征聚类的致癌基因选择方法被引量：4

Cancer Gene Selection Algorithm Based on Support Vector Machine Recursive Feature Elimination and Feature Clustering

下载PDF

导出

摘要癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显. Cancer is usually caused by mutations in genes.It is significant to effectively identify a small number of pathogenic genes from numerous genes.Based on characteristics of gene expression profile data,a novel algorithm(K-SVM-RFE)of gene selection is proposed by combining SVM-RFE with feature clustering algorithm.First,irrelevant genes were removed by feature ranking algorithm.Then,these genes were clustered by K-means and the SVM-RFE algorithm was applied twice to select key genes.We conducted experiments on some real-world data sets and discussed the parameter settings in our method.Results show that,compared with the existing methods,genes selected by the K-SVM-RFE algorithm have significantly improved the classification accuracy,especially in selecting a few key genes.

作者叶小泉吴云峰 YE Xiaoquan;WU Yunfeng(Fujian Key Laboratory of Sensing and Computing for Smart City,School of Information Science and Engineering,Xiamen University,Xiamen361005,China)

机构地区厦门大学信息科学与技术学院

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2018年第5期702-707,共6页 Journal of Xiamen University：Natural Science

基金国家自然科学基金(61771331)

关键词基因表达谱特征选择 K均值聚类支持向量机 gene expression profile feature selection K-means support vector machine

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张东.基因表达谱的复杂网络研究[J].电脑知识与技术,2011,7(3):1671-1674. 被引量：1
2李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45

二级参考文献23

1李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
2刘全金,李颖新,阮晓钢.基于基因表达谱的结肠癌特征基因选取[J].昆明理工大学学报（理工版）,2006,31(1):89-92. 被引量：4
3GUYON I,WESTON J,BARNILL S,et al.Gene selection for cancer classification using support vector machine [J].Machine Learning, 2000,46(13):389-242.
4Xiaosheng Wang and Osamu Gotoh.Microarray-Based Cancer Prediction Using Soft Computing Approach[J].Cancer Informatics,2009(7): 123-139.
5Xue Wu Zhang,Yee Leng Yap,Dong Wei,et al.Molecular diagnosis of human cancer type by gene expression profiles and independent component analysis[J].European Journal of Human Genetics,2005(9).
6Lander E.S..Array of hope.Nature Genetics,1999,21(Supplement 1):3～4.
7Ramaswamy S.,Golub T.R..DNA microarrays in clinical oncology.Journal of Clinical Oncology,2002,20 (7):1932 ～1941.
8Ramaswamy S.,Tamayo P.,Rifkin R.et al..Multiclass cancer diagnosis using tumor gene expression signatures.Proceedings of the National Academy of Sciences of the United States of America,2001,98(26):15149～15154.
9Golub T.R.,Slonim D.K.,Tamayo P.et al..Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring.Science,1999,(5439):531～537.
10Hedenfalk I.,Duggan D.,Chen Y.et al..Gene-expression profiles in hereditary breast cancer.New England Journal of Medicine,2001,344(8):529～548.

共引文献44

1周文佳,吕金超,高翔.基于统计检验的基因表达数据特征选取与分类模型[J].数学建模及其应用,2019,8(4):48-53. 被引量：1
2王树林,王戟,陈火旺,张波云.基于主成份分析的肿瘤分类检测算法研究[J].计算机工程与科学,2007,29(9):84-90. 被引量：9
3周昉,何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学,2007,34(12):143-150. 被引量：20
4高山,张红,尹京苑.基因芯片显著性分析方法在伯基特淋巴瘤分期特征分析中的应用[J].上海大学学报（自然科学版）,2008,14(1):106-110.
5王树林,王戟,陈火旺,李树涛,张波云.肿瘤信息基因启发式宽度优先搜索算法研究[J].计算机学报,2008,31(4):636-649. 被引量：17
6阳少林,王树林.基于神经网络的多类肿瘤亚型识别研究[J].计算机工程与应用,2008,44(11):237-240. 被引量：2
7刘全金,李颖新.Boosting算法在基因表达谱样本分类中的应用[J].计算机工程与应用,2008,44(14):228-230. 被引量：2
8黄伟,尹京苑.一种基于支持向量机的自适应肿瘤分类检测算法[J].生物信息学,2009,7(4):243-247.
9卢新国,陈东,杜家宜,周娟.利用协同分类方法识别癌症类型[J].计算机科学,2010,37(2):232-236.
10谢芬.基于遗传算法优化决策树的肿瘤基因分类研究[J].电脑知识与技术,2010,6(4):2493-2495.

同被引文献37

1毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
2于海燕,钱志余,卢光明,张志强.基于功能磁共振成像(fMRI)的脑功能逻辑任务功能区BOLD信号研究[J].生物医学工程学杂志,2009,26(6):1171-1176. 被引量：2
3刘辉,牛智有.基于电子鼻的鱼粉中挥发性盐基氮检测模型比较[J].农业工程学报,2010,26(4):322-326. 被引量：21
4潘磊庆,刘明,詹歌,董庆利,孔静,屠康.数据预处理在电子鼻评价鸡蛋新鲜度中的应用研究[J].上海理工大学学报,2010,32(6):584-588. 被引量：6
5周显青,暴占彪,崔丽静,林家永,张玉荣.霉变玉米电子鼻识别及其传感器阵列优化[J].河南工业大学学报（自然科学版）,2011,32(4):16-20. 被引量：11
6陈星,吴大伟,周岩民.肉粉替代鱼粉对肉鸡生产性能、血清生化指标和抗氧化性能的影响[J].粮食与饲料工业,2012(10):53-56. 被引量：3
7刘晶晶,孙永海,丁健峰,孙钟雷.玉米汁辨识中的传感器阵列优化[J].吉林大学学报（工学版）,2013,43(2):538-543. 被引量：2
8尹芳缘,黄洁,王敏敏,郑海霞,杨月,陈静,曾小燕,童春霞,王绿野,姜燕,沈凤,惠国华.用电子鼻区分霉变燕麦及其传感器阵列优化[J].农业工程学报,2013,29(20):263-269. 被引量：16
9蔡骋,李永超,马惠玲,李晓龙.基于介电特征选择的苹果内部品质无损分级[J].农业工程学报,2013,29(21):279-287. 被引量：25
10程绍明,王俊,王永维,马杨珲.基于电子鼻技术的不同特征参数对番茄苗早疫病病害区分效果影响的研究[J].传感技术学报,2014,27(1):1-5. 被引量：13

引证文献4

1吴清寿,刘长勇,林丽惠.融合序列后向选择与支持向量机的混合式特征选择算法[J].计算机系统应用,2019,28(7):174-179. 被引量：5
2李培,牛智有,谭鹤群,张伟健,皇甫季璇.鱼粉品质检测电子鼻传感器阵列的多特征数据融合优化[J].农业工程学报,2019,35(12):313-320. 被引量：4
3郭政,赵梅,胡长青.一种有效降维的特征选择方法及其在水声目标识别中的应用[J].声学技术,2021,40(1):14-20. 被引量：1
4曾安,罗百荣,潘丹,容华斌,曹剑锋,张小波,林靖,杨洋,刘军.基于非线性高阶特征和超图卷积神经网络的阿尔茨海默症分类[J].生物医学工程学杂志,2023,40(5):852-858.

二级引证文献10

1金中.世界系统芯片未来大趋势[J].电子产品世界,2000,7(4):7-7. 被引量：2
2王瑞杰,李军怀,王侃,王怀军,商珣超,徒鹏佳.基于改进特征子集区分度的行为识别特征选择方法[J].计算机科学,2020,47(S02):204-208. 被引量：3
3宁波,王运,邵鹏,杨慧彪.基于包裹式框架的风功率特征选择与预测方法[J].信息技术,2020,44(12):17-21. 被引量：5
4韩笑.文创产品主题设计显著性视觉特征融合研究[J].现代电子技术,2021,44(2):149-152. 被引量：1
5陆冰怡,刘宝林,刘志东,张忭忭,林娜.采用多元统计分析方法构建南极磷虾粉品质评价体系[J].农业工程学报,2020,36(23):301-308. 被引量：4
6李雨晨.二维传感器阵列中最邻近点对求解的预处理算法[J].工业控制计算机,2021,34(3):15-17. 被引量：2
7李娟,尉鹏,戴学之,赵森,张博雅,吕玲玲,胡京南.基于机器学习方法的西安市数值模拟优化研究[J].环境科学研究,2021,34(4):872-881. 被引量：17
8曹启旻,赵梅,胡长青.基于舰船噪声的海底单参数反演[J].声学技术,2022,41(2):180-185. 被引量：1
9吴笛.基于H-op组合算法的财务数据特征预测系统设计[J].喀什大学学报,2021,42(3):12-18. 被引量：1
10欧卫红,杨永琴.一种交互网络特征反馈标记方法研究[J].信息技术,2023,47(6):71-76.

1毕泗成,刘浩,张鹏,李喆,买铁军,祝志臻.血清LCN2与PSA联合检测对前列腺癌的诊断价值[J].国际肿瘤学杂志,2018,45(1):27-31. 被引量：6
2徐晶晶,熊辉霞.Ph样急性淋巴细胞白血病的研究进展[J].中国实验血液学杂志,2018,26(5):1579-1582. 被引量：3
3梁耘,王维庆,王海云.基于分裂-合并策略改进多特征聚类算法的风电机组故障分析[J].可再生能源,2017,35(10):1537-1543. 被引量：6
4南海燕,张欣,颜林枫,杨洋,韩宇,王文,崔光彬.基于DCE-MRI定量参数的胶质瘤自动分级研究[J].磁共振成像,2018,9(7):494-499. 被引量：3
5郑列,任秀伟,罗幼喜.基于可固定用户自定义特征子集的特征选择新算法[J].湖北工业大学学报,2018,33(2):115-120.
6刘微,杨慧婕,刘守印.基于ACCA-FCM和SVM-RFE的蓄电池SOH特征选择算法[J].计算机与现代化,2018(1):11-18. 被引量：3
7祝晓坤.基于深度学习的WorldView-3城市目标分类应用研究[J].测绘通报,2017(S2):40-43. 被引量：5
8李洪瑞,李艳华.HPV E6/E7与宫颈病变关系的研究进展[J].四川生理科学杂志,2018,40(3):214-219. 被引量：1
9袁佳仪,何恒晶,毕娅琼,郭梓鑫,肖宇,李胜.TOP2A基因表达对膀胱癌的预后价值分析[J].国际肿瘤学杂志,2018,45(1):22-26. 被引量：10
10王彤,黄仲禄,谢海容,刘萨.HPV E6/E7 mRNA联合TCT检查在宫颈癌早期筛查中的应用[J].中国妇幼保健,2018,33(18):4272-4275. 被引量：15

厦门大学学报（自然科学版）

2018年第5期

浏览历史

内容加载中请稍等...

基于支持向量机递归特征消除和特征聚类的致癌基因选择方法被引量：4

参考文献2

二级参考文献23

共引文献44

同被引文献37

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于支持向量机递归特征消除和特征聚类的致癌基因选择方法 被引量：4

参考文献2

二级参考文献23

共引文献44

同被引文献37

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于支持向量机递归特征消除和特征聚类的致癌基因选择方法被引量：4