基于递归特征消除和随机森林融合算法的大豆前体MicroRNA预测模型研究被引量：5

Research on Soybean Pre-Micro RNA Prediction Model Based on Recursive Feature Elimination and Random Forest Fusion Algorithm

下载PDF

导出

摘要随着大豆RNA基因的生物调控作用研究的不断深入,利用数据挖掘技术对大豆前体MicroRNA(pre-microRNA)进行有效的预测已成为该领域的重要发展方向。针对常规的随机森林算法在pre-microRNA预测模型中存在识别精度较低的问题,研究提出并构建基于递归特征消除(recursive feature elimination, RFE)与随机森林(random forest, RF)融合算法的大豆pre-microRNA预测模型。首先利用递归特征消除法筛选大豆pre-microRNA序列的最优特征子集;然后结合随机森林算法构建大豆pre-microRNA的预测模型;最后利用十折交叉验证法,将递归特征消除与随机森林(RFE-RF)融合模型的预测结果与单一随机森林和支持向量机分类模型的预测结果对比。研究结果表明:融合后构建的大豆pre-microRNA预测模型精度有明显提高,达到84.62%,相比于支持向量机算法(support vector machine, SVM)构建的模型精度提高了17.02%,相比于单独使用随机森林算法构建的模型精度提高了14.58%。该研究方法为大豆的pre-microRNA基因预测提供了新思路。 With the continuous in-depth research on the biological regulatory effects of small genes in soybean, the use of data mining technology to effectively predict the pre-MicroRNA of soybean has become an important development direction in this field. To solve the problem that conventional Random Forest(RF) algorithm has low recognition accuracy in pre-MicroRNA prediction model, this study proposed and constructed a soybean pre-microRNA prediction model based on Recursive Feature Elimination(RFE) and RF fusion algorithm. Firstly, we used the RFE method to select the optimal feature subset of soybean pre-MicroRNA sequences. Then, we constructed a prediction model of soybean pre-MicroRNA based on RF algorithm. Finally, we compared the prediction results of the RFE-RF fusion model with the prediction results of the single RF and Support Vector Machine(SVM) classification model. The results showed that the accuracy of the soybean Pre-MicroRNA prediction model constructed after fusion was significantly improved, reaching 84.62%, 17.02% higher than the model constructed by SVM algorithm, and 14.58% higher than the model constructed by RF algorithm alone. This method provides a new idea for the prediction of pre-MicroRNA genes in soybean.

作者安宇陈桂芬李静 AN Yu;CHEN Gui-fen;LI Jing(College of Information Technology,Jilin Agricultural University,Changchun 130118,China)

机构地区吉林农业大学信息技术学院

出处《大豆科学》 CAS CSCD 北大核心 2020年第3期401-405,共5页 Soybean Science

基金国家星火计划(2015GA660004) 吉林省重点科技研发项目(20180201073SF)。

关键词大豆 Pre-microRNA 递归特征消除随机森林预测模型 Soybean Pre-MicroRNA Recursive Feature Elimination(RFE) Random Forest(RF) Prediction model

分类号 S565.1 [农业科学—作物学]

引文网络
相关文献

参考文献8

1吴辰文,梁靖涵,王伟,李长生.基于递归特征消除方法的随机森林算法[J].统计与决策,2017,33(21):60-63. 被引量：50
2王颖,李金,王磊,徐成振,才忠喜.基于机器学习的microRNA预测方法研究进展[J].计算机科学,2015,42(2):7-13. 被引量：2
3刘永鑫,韩英鹏,常玮,邹权,郭茂祖,李文滨.一种适合大豆MicroRNA鉴定的RT-PCR方法[J].大豆科学,2009,28(4):600-604. 被引量：2
4李小平,曾庆发,赵娟.大豆生长素响应因子GmARF16器官表达特征及抗降解表达载体的构建[J].大豆科学,2014,33(5):661-666. 被引量：1
5董红斌,石丽,李涛.一种改进的microRNA预测模型集成方法[J].计算机科学,2018,45(2):69-75. 被引量：1
6魏小敏,徐彬,关佶红.基于递归特征消除法的蛋白质能量热点预测[J].山东大学学报（工学版）,2014,44(2):12-20. 被引量：4
7金伟波,李楠楠,吴方丽,孔栋,郭蔼光.水稻MicroRNA的预测及实验验证[J].中国生物化学与分子生物学报,2007,23(9):743-750. 被引量：7
8倪志勇,于月华,陈全家,曲延英.大豆gma-miR1510a生物信息学分析及人工microRNA植物表达载体构建[J].大豆科学,2016,35(2):239-244. 被引量：4

二级参考文献117

1张丽新,王家钦,赵雁南,杨泽红.机器学习中的特征选择[J].计算机科学,2004,31(11):180-184. 被引量：18
2王芳,余佳,张俊武.小RNA(MicroRNA)研究方法[J].中国生物化学与分子生物学报,2006,22(10):772-779. 被引量：14
3张旗,何湘君,潘秀英.RNA加尾和引物延伸RT-PCR法实时定量检测microRNA[J].北京大学学报（医学版）,2007,39(1):87-91. 被引量：23
4Shao-Yao Ying. Micro RNA protocols [ M ]. Totowa, New Jersey: Humana Press ,2006.
5Rossi J J,Harmon G J.MicroRNA研究方法[M].北京:科学出版社,2008.
6Grad Y, Aach J, Hayes G D, et al. Computational and experimental identification of C. e!egans microRNAs [ J ]. Molecular Cell, 2003, 11(5) :1253-1263.
7Ambros. MicroRNA pathways in flies and worms:growth, death, fat, stress, and timing[ J]. Cell. 2003,113 ;673-676.
8Alvarez G I , Miska E A. MicroRNA functions in animal development and human disease [J]. Development,2005,132 (21) : 4653-4662.
9Lau P, Hudson L, Murashov A K, et al. MicroRNA and siRNA cloning method[ J]. Science ,2005,294:858-862.
10Fujii H,Chiou T J,Lin S I,et al. A miRNA Involved in phosphate-starvation response in arabidopsis [ J ]. Current Biology, 2005,15 : 2038-2043.

共引文献61

1冉哲,李英娜,刘爱莲.基于RFE+CatBoost模型的异常用电检测方法研究[J].电视技术,2021,45(8):121-126. 被引量：3
2吴方丽,金伟波,段敏,王保莉,曲东.利用支持向量机识别miRNA成熟链[J].西北农林科技大学学报（自然科学版）,2009,37(3):219-222.
3吕德康,葛瑛,柏锡,李勇,朱延明.生物信息学在植物miRNA研究中的应用[J].生物信息学,2009,7(2):113-116. 被引量：7
4张金梅,李煌,汪启明,饶力群.柑橘中冷胁迫相关的miRNA的RT-PCR鉴定[J].湖南农业科学,2011(5):13-16. 被引量：4
5李婧,熊莉丽,胡久梅,郭志云.基于EST和GSS序列的玉米未知微RNA的数据挖掘[J].生物技术通报,2011,27(12):108-112. 被引量：7
6孙超,孟军,栾雨时.基于支持向量机分类算法的番茄miRNA预测[J].计算机工程与应用,2012,48(14):203-207. 被引量：5
7秦德龙.流浪儿[J].传奇故事（百家讲堂）,2000(8):73-74.
8郭红媛,贾举庆,段娜,张怡晴,舒国平,陈潇洒.燕麦microRNAs及其靶基因的生物信息学预测[J].山西农业科学,2014,42(5):428-431. 被引量：2
9王军,李建勋,王兴,戚宗锋.效能评估可信度的客观度量方法[J].西安交通大学学报,2018,52(2):37-44. 被引量：8
10郭海山,高波涌,陆慧娟.基于Boruta-PSO-SVM的股票收益率研究[J].传感器与微系统,2018,37(3):51-53. 被引量：11

同被引文献62

1薛婧雅,李礼,龚烨,汪静,姚剑.一种基于超体素与区域生长的机载点云屋顶平面分割方法[J].测绘地理信息,2021,46(S01):232-236. 被引量：9
2赵嘉进,刘家全,张得煊,裴强强,刘鸿.基于三维激光扫描的石窟寺病害可视化研究[J].石窟与土遗址保护研究,2022(2):72-80. 被引量：3
3向红艳,刘伟,朱顺应.基于偏差分析的交通事件自动检测算法[J].中南公路工程,2007,32(2):142-144. 被引量：4
4葛少云,贾鸥莎,刘洪.基于遗传灰色神经网络模型的实时电价条件下短期电力负荷预测[J].电网技术,2012,36(1):224-229. 被引量：71
5潘留杰,张宏芳,朱伟军,王楠,王建鹏.ECMWF模式对东北半球气象要素场预报能力的检验[J].气候与环境研究,2013,18(1):111-123. 被引量：66
6蒋维,李亚冬,李海波,邓晓湖,刘衍选.水平轴风力机桨叶覆冰数值模拟[J].太阳能学报,2014,35(1):83-88. 被引量：13
7张保钦,雷保珍,赵林惠,李世刚,郑业明.风机叶片故障预测的振动方法研究[J].电子测量与仪器学报,2014,28(3):285-291. 被引量：34
8王靖,潘振宽,郑永果,丁洁玉.基于Potts模型的图像分割快速算法[J].计算机应用与软件,2015,32(1):206-210. 被引量：1
9王义军,李殿文,高超,张洪赫.基于改进的PSO-SVM的短期电力负荷预测[J].电测与仪表,2015,52(3):22-25. 被引量：28
10商强,林赐云,杨兆升,邴其春,邢茹茹.基于变量选择和核极限学习机的交通事件检测[J].浙江大学学报（工学版）,2017,51(7):1339-1346. 被引量：15

引证文献5

1聂福印,李强,黄秋凤,黄玲琳.基于维度融合与SSA-LSTM的机翼结冰检测[J].传感器与微系统,2022,41(6):118-121. 被引量：1
2李鑫,李海明,马健.基于单步预测LSTM的短期负荷预测模型[J].计算机仿真,2022,39(6):98-102. 被引量：9
3张兵,张校梁,屈永强,上官小荣,邹少权.采用特征变量选择和长短期记忆网络的高速公路交通事件检测研究[J].重庆理工大学学报（自然科学）,2023,37(4):157-165. 被引量：4
4李德伦,肖志祥,谢宁新,龚荣.机器学习中混合特征选择对模式预报广西春夏气温的订正研究[J].成都信息工程大学学报,2023,38(5):602-609. 被引量：1
5何勇,王继腾,侯妙乐.基于随机森林和多标签图割的点云石窟寺佛龛对象化提取方法[J].时空信息学报,2024,31(6):710-721.

二级引证文献15

1周泰斌,李大任,沈杰,葛宇达,陈茂佳,黄光群.基于粒子群算法的配电台区售电量精准预测方法[J].电力大数据,2023,26(1):26-34. 被引量：1
2贾巍,黄裕春.基于小样本数据差分扩容的微电网负荷预测方法[J].中国电力,2023,56(8):151-156. 被引量：5
3刘静乐,罗翔,宫成荣,张国鹏.基于RF-RFECV和LightGBM算法的糖尿病预测[J].计算机与现代化,2023(11):36-43. 被引量：1
4冯欣欣,卜磊,章晓余,史玉峰.基于ICEEMDAN-LSTM的地铁盾构隧道管片形变数据分析预测[J].计算机与现代化,2023(11):57-61. 被引量：1
5王博琼.云计算下网络通信大数据混合属性特征检测[J].长江信息通信,2023,36(11):94-96. 被引量：4
6蔡思烨,卢泉篠,胡鹏,杨恩龙,余玉良,顾小旭.基于深度学习的调度检修预案生成模型构建[J].粘接,2024,51(3):153-156.
7颜珂,彭星煜,刘小琨,张昆,张瑜春,穆卫巍,李富生.基于CEEMD-LSTM的短期天然气负荷预测模型[J].油气储运,2024,43(3):351-359. 被引量：2
8宋永朝,王翠.基于固定检测器的动态交通故障数据识别与修复[J].重庆交通大学学报（自然科学版）,2024,43(4):88-96.
9张亚博,毛俊伟,葛俊锋,桂康.基于压电阵列的结冰三维成像方法研究[J].传感器与微系统,2024,43(6):51-54.
10文思伦,张楚岩,刁明光,周振安,徐惠勇,刘慧芳.基于LSTM和ArcGIS的区域输电网污秽状态智能评估方法[J].湖南电力,2024,44(3):55-63.

1喻荣辉,于维雅,徐冬玲,路军,王伟,曹占伟,吕钊鹏,侯彩娜,赵欣,许丰强.血浆miR-21与心房颤动射频消融术后复发的关系研究[J].中华全科医学,2020,18(8):1265-1267. 被引量：6
2李志铭,赵静,兰玉彬,崔欣,杨焕波.基于无人机可见光图像的作物分类研究[J].西北农林科技大学学报（自然科学版）,2020,48(6):137-144. 被引量：8
3王谦,刘晓璐,吴枫,刘景萍.乳腺超声检查对三阴性乳腺癌诊断及评估其癌灶大小的效能研究[J].中国性科学,2020,29(7):38-43. 被引量：8
4刘畅,郎劲.基于混核LSSVM的批特征风功率预测方法[J].自动化学报,2020,46(6):1264-1273. 被引量：10
5陶嫦立,张琴,曾文静,谭有为,邵红伟.长链菊粉对抗生素处理后小鼠肠道菌群重建的影响[J].微生物学报,2020,60(7):1433-1446. 被引量：3
6苑婕,王珍珍,宋丽娟,薛媛,张维金.基于监督学习算法的延胡索成分-靶点-疾病网络的预测研究[J].海南医学,2020,31(13):1638-1643. 被引量：3
7张萍.新生儿听力联合耳聋基因筛查的临床价值分析[J].中国继续医学教育,2020,12(20):109-111. 被引量：2
8詹雪龙,牛春阳,薛琳琳,计红,李士泽,郭景茹,甄莉.基于高通量测序的冷应激大鼠肝脏mRNA差异表达分析[J].中国生物制品学杂志,2020,33(6):658-664. 被引量：2
9杨小艳,王忠伟,吴红,韩垚,雷开荣,谢树章.耐草甘膦菌株Pantoea rodasii S1536全基因组测序及比较基因组分析[J].基因组学与应用生物学,2020,39(5):2063-2070.
10赵云龙,刘阳.非小细胞肺癌功能基因与化疗药物疗效关系的研究进展[J].感染．炎症．修复,2020,21(1):61-64. 被引量：4

大豆科学

2020年第3期

浏览历史

内容加载中请稍等...

基于递归特征消除和随机森林融合算法的大豆前体MicroRNA预测模型研究被引量：5

参考文献8

二级参考文献117

共引文献61

同被引文献62

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于递归特征消除和随机森林融合算法的大豆前体MicroRNA预测模型研究 被引量：5

参考文献8

二级参考文献117

共引文献61

同被引文献62

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于递归特征消除和随机森林融合算法的大豆前体MicroRNA预测模型研究被引量：5