近日,中國農業科學院植物保護研究所聯合揚州大學、湖南農業大學等多家單位在中國工程院主刊 Engineering (專業頂刊)上以綠色植物保護創新(Green Plant Protection Innovation)為方向發表了題為《Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance》的研究成果。該研究通過優化多種機器學習流程,開發了基于高通量基因型數據的作物抗病表型精準預測方法,實現了對水稻稻瘟病、紋枯病、黑條矮縮病,以及小麥麥瘟病、條繡病抗性的精準預測。
傳統抗病育種往往通過篩選已知抗病(R)基因、依據病圃抗性鑒定來選擇抗病新品種。在作物對不同病害抗性研究中,已知的抗病基因數量還十分有限,加上近年研究發現,不少感病(S)基因突變、能塑造植物健康微生物組的M基因等對作物的最終抗性表型均起到了重要貢獻。因此,高效選育抗病品種需要充分考慮和利用全基因組信息,但目前基于作物高通量基因型數據篩選作物抗病表型的高效精準方法報道較少。
為此,本研究以水稻主要病害稻瘟病、紋枯病和黑條矮縮病,以及小麥麥瘟病(CIMMYT已發表數據)和條銹病為研究對象,利用水稻、小麥自然品種資源的高通量基因型數據、表型數據、通過全基因組關聯分析挖掘抗病關聯位點信息,通過多種機器學習方法對抗病關聯位點基因型和表型進行訓練以構建預測模型,基于該模型實現了基于個體基因型精準預測其抗病性水平,解決了傳統抗病育種中通常僅依賴少數抗病基因而不能精準選擇抗病新材料的問題。
在整體設計中,本研究將小麥和水稻核心群體(各包含超過300個代表性品種)進行多種病害抗性鑒定,對不同病害的抗性分為R(抗病)和S(感病)兩種類型(去除部分抗感不確定品種),將復雜的群體數量抗性問題簡化為二分類問題;在機器學習訓練過程中,對取樣過程進行干預,將親緣關系(K)加入到取樣過程,使其每次取樣在群體中的分布由隨機改為均勻,避免訓練過程中的取樣不均。研究結果表明,在適當P閾值范圍內(P值代表全基因組關聯分析獲得的抗病關聯SNP標記的關聯值),隨機森林分類(RFC)、支持向量機分類(SVC)、以及輕量級梯度提升機器學習(lightGBM)、深度神經網絡(DNNGP)、稠密連接卷積網絡(DenseNet)等機器學習算法均能實現較高準確性預測。其中,當RFC、SVC、以及lightGBM結合親緣關系均勻取樣訓練情況下,即RFC_K、SVC_K、以及lightGBM_K方法(與未結合K取樣方法相比較)均能顯著提高預測準確性,本研究對水稻稻瘟病抗性的預測準確性最高達95%,跨群體預測結合人工接種鑒定確定的準確性也高達91%。另外,對小麥麥瘟病和條銹病的預測準確性分別達到90%和94%。對水稻紋枯病和水稻黑條矮縮病兩種公認難以準確鑒定抗病性的病害,其預測準確性都達到85%。上述結果說明本研究開發的基于基因型精準篩選表型的機器學習方法對于作物多種病害抗性表型預測具有廣適性,未來合理利用可顯著提高作物抗病育種效率。
中國農業科學院植物保護研究所研究生劉琪、揚州大學/生物育種鐘山實驗室左示敏教授為共同第一作者,中國農業科學院植物保護研究所康厚祥副研究員為通訊作者。湖南農業大學李魏教授、中國農業科學院作物科學研究所李慧慧研究員和熊葉輝研究員、中國農業大學楊俊教授、海南大學林潤茂副教授、揚州大學馮志明副教授等也參與了數據分析、論文修改等工作。植保所彭莎莎、彭燁博士,作物所張昊博士也為該研究做出了重要貢獻。該研究受到國家自然科學基金國際合作項目(32261143468)、國家重點研發計劃(2021YFC2600400)、江蘇省種業振興計劃(JBGS(2021)001)等項目的聯合資助。
文章鏈接:https://www.sciencedirect.com/science/article/pii/S2095809924002431
日期:2024-05-06
傳統抗病育種往往通過篩選已知抗病(R)基因、依據病圃抗性鑒定來選擇抗病新品種。在作物對不同病害抗性研究中,已知的抗病基因數量還十分有限,加上近年研究發現,不少感病(S)基因突變、能塑造植物健康微生物組的M基因等對作物的最終抗性表型均起到了重要貢獻。因此,高效選育抗病品種需要充分考慮和利用全基因組信息,但目前基于作物高通量基因型數據篩選作物抗病表型的高效精準方法報道較少。
為此,本研究以水稻主要病害稻瘟病、紋枯病和黑條矮縮病,以及小麥麥瘟病(CIMMYT已發表數據)和條銹病為研究對象,利用水稻、小麥自然品種資源的高通量基因型數據、表型數據、通過全基因組關聯分析挖掘抗病關聯位點信息,通過多種機器學習方法對抗病關聯位點基因型和表型進行訓練以構建預測模型,基于該模型實現了基于個體基因型精準預測其抗病性水平,解決了傳統抗病育種中通常僅依賴少數抗病基因而不能精準選擇抗病新材料的問題。
在整體設計中,本研究將小麥和水稻核心群體(各包含超過300個代表性品種)進行多種病害抗性鑒定,對不同病害的抗性分為R(抗病)和S(感病)兩種類型(去除部分抗感不確定品種),將復雜的群體數量抗性問題簡化為二分類問題;在機器學習訓練過程中,對取樣過程進行干預,將親緣關系(K)加入到取樣過程,使其每次取樣在群體中的分布由隨機改為均勻,避免訓練過程中的取樣不均。研究結果表明,在適當P閾值范圍內(P值代表全基因組關聯分析獲得的抗病關聯SNP標記的關聯值),隨機森林分類(RFC)、支持向量機分類(SVC)、以及輕量級梯度提升機器學習(lightGBM)、深度神經網絡(DNNGP)、稠密連接卷積網絡(DenseNet)等機器學習算法均能實現較高準確性預測。其中,當RFC、SVC、以及lightGBM結合親緣關系均勻取樣訓練情況下,即RFC_K、SVC_K、以及lightGBM_K方法(與未結合K取樣方法相比較)均能顯著提高預測準確性,本研究對水稻稻瘟病抗性的預測準確性最高達95%,跨群體預測結合人工接種鑒定確定的準確性也高達91%。另外,對小麥麥瘟病和條銹病的預測準確性分別達到90%和94%。對水稻紋枯病和水稻黑條矮縮病兩種公認難以準確鑒定抗病性的病害,其預測準確性都達到85%。上述結果說明本研究開發的基于基因型精準篩選表型的機器學習方法對于作物多種病害抗性表型預測具有廣適性,未來合理利用可顯著提高作物抗病育種效率。
中國農業科學院植物保護研究所研究生劉琪、揚州大學/生物育種鐘山實驗室左示敏教授為共同第一作者,中國農業科學院植物保護研究所康厚祥副研究員為通訊作者。湖南農業大學李魏教授、中國農業科學院作物科學研究所李慧慧研究員和熊葉輝研究員、中國農業大學楊俊教授、海南大學林潤茂副教授、揚州大學馮志明副教授等也參與了數據分析、論文修改等工作。植保所彭莎莎、彭燁博士,作物所張昊博士也為該研究做出了重要貢獻。該研究受到國家自然科學基金國際合作項目(32261143468)、國家重點研發計劃(2021YFC2600400)、江蘇省種業振興計劃(JBGS(2021)001)等項目的聯合資助。
文章鏈接:https://www.sciencedirect.com/science/article/pii/S2095809924002431
日期:2024-05-06