近日,中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所微生物與酶工程創(chuàng)新團(tuán)隊和生物技術(shù)研究所微生物蛋白設(shè)計與智造創(chuàng)新團(tuán)隊合作,開發(fā)了基于預(yù)訓(xùn)練蛋白語言大模型的蛋白高表達(dá)預(yù)測與設(shè)計新策略,實現(xiàn)蛋白質(zhì)語言大模型與基因表達(dá)深度融合,為高效創(chuàng)制高性能蛋白產(chǎn)品提供了新的思路與工具。相關(guān)研究成果發(fā)表在《先進(jìn)科學(xué)(Advanced Science)》。
蛋白質(zhì)的高效、可溶性異源表達(dá)是酶蛋白變成酶產(chǎn)品的關(guān)鍵核心環(huán)節(jié)。傳統(tǒng)的策略包括更換表達(dá)宿主、表達(dá)載體或添加分子伴侶等,但這些策略很大程度上依賴研究人員的經(jīng)驗并且需要大量的實驗驗證,缺乏對蛋白質(zhì)序列與其表達(dá)之間關(guān)系的認(rèn)識。
本研究基于遷移學(xué)習(xí)理論,開發(fā)了國產(chǎn)化的預(yù)訓(xùn)練蛋白質(zhì)語言模型MP-TRANS,該模型架構(gòu)包含8層Transformer模塊,總計擁有87,164,000個參數(shù),預(yù)訓(xùn)練階段高效利用了8張國產(chǎn)NPU計算卡。通過進(jìn)一步對MP-TRANS模型進(jìn)行下游任務(wù)的微調(diào),構(gòu)建了蛋白質(zhì)表達(dá)量預(yù)測與分子設(shè)計平臺。該平臺包括88種不同宿主的表達(dá)量預(yù)測模型MPB-EXP,平均準(zhǔn)確率為0.78,超越了傳統(tǒng)機器學(xué)習(xí)技術(shù),成為當(dāng)前支持最多表達(dá)宿主的預(yù)測模型,可廣泛適用于多類表達(dá)宿主。此外,本研究創(chuàng)新性地提出了氨基酸表達(dá)指數(shù)(AEI)概念,并據(jù)此開發(fā)了相對氨基酸偏好強度(SRAB)評估工具,為蛋白質(zhì)表達(dá)提供了精確的量化工具。在此基礎(chǔ)上,我們進(jìn)一步開發(fā)了突變體生成模型MPB-MUT,通過智能重構(gòu)目標(biāo)蛋白序列,有效提升了其在特定宿主中的表達(dá)效率。最終,借助該平臺,實現(xiàn)了木聚糖酶、纖維素酶及PET塑料降解酶在大腸桿菌中可溶性表達(dá)量的顯著提升。
該研究得到國家重點研發(fā)計劃、國家自然科學(xué)基金、中國農(nóng)業(yè)科學(xué)院創(chuàng)新工程項目的資助。模型構(gòu)建過程中,得到河北人工智能計算中心提供的計算資源支持。中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所田健研究員、黃火清研究員和中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所關(guān)菲菲副研究員、劉波研究員為論文共同通訊作者,碩士研究生劉拓宇和張銥洋為論文共同第一作者。
原文地址:
https://onlinelibrary.wiley.com/doi/10.1002/advs.202407664
日期:2025-02-05
蛋白質(zhì)的高效、可溶性異源表達(dá)是酶蛋白變成酶產(chǎn)品的關(guān)鍵核心環(huán)節(jié)。傳統(tǒng)的策略包括更換表達(dá)宿主、表達(dá)載體或添加分子伴侶等,但這些策略很大程度上依賴研究人員的經(jīng)驗并且需要大量的實驗驗證,缺乏對蛋白質(zhì)序列與其表達(dá)之間關(guān)系的認(rèn)識。
本研究基于遷移學(xué)習(xí)理論,開發(fā)了國產(chǎn)化的預(yù)訓(xùn)練蛋白質(zhì)語言模型MP-TRANS,該模型架構(gòu)包含8層Transformer模塊,總計擁有87,164,000個參數(shù),預(yù)訓(xùn)練階段高效利用了8張國產(chǎn)NPU計算卡。通過進(jìn)一步對MP-TRANS模型進(jìn)行下游任務(wù)的微調(diào),構(gòu)建了蛋白質(zhì)表達(dá)量預(yù)測與分子設(shè)計平臺。該平臺包括88種不同宿主的表達(dá)量預(yù)測模型MPB-EXP,平均準(zhǔn)確率為0.78,超越了傳統(tǒng)機器學(xué)習(xí)技術(shù),成為當(dāng)前支持最多表達(dá)宿主的預(yù)測模型,可廣泛適用于多類表達(dá)宿主。此外,本研究創(chuàng)新性地提出了氨基酸表達(dá)指數(shù)(AEI)概念,并據(jù)此開發(fā)了相對氨基酸偏好強度(SRAB)評估工具,為蛋白質(zhì)表達(dá)提供了精確的量化工具。在此基礎(chǔ)上,我們進(jìn)一步開發(fā)了突變體生成模型MPB-MUT,通過智能重構(gòu)目標(biāo)蛋白序列,有效提升了其在特定宿主中的表達(dá)效率。最終,借助該平臺,實現(xiàn)了木聚糖酶、纖維素酶及PET塑料降解酶在大腸桿菌中可溶性表達(dá)量的顯著提升。
該研究得到國家重點研發(fā)計劃、國家自然科學(xué)基金、中國農(nóng)業(yè)科學(xué)院創(chuàng)新工程項目的資助。模型構(gòu)建過程中,得到河北人工智能計算中心提供的計算資源支持。中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所田健研究員、黃火清研究員和中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所關(guān)菲菲副研究員、劉波研究員為論文共同通訊作者,碩士研究生劉拓宇和張銥洋為論文共同第一作者。
原文地址:
https://onlinelibrary.wiley.com/doi/10.1002/advs.202407664
日期:2025-02-05