分子結構預測是生物信息學的“圣杯”,2024年諾貝爾化學獎授予了AI蛋白質結構預測系統AlphaFold的兩位開發者,標志著人工智能(AI)預測方法能給生命科學研究帶來革命性推進。然而,AlphaFold仍然未解決核酸結構預測的問題,RNA三維結構預測領域仍亟需明確其瓶頸和發展方向。
RNA-Puzzles是一個2012年開始的國際合作項目,致力于評估RNA三維結構預測的最新進展。組織者在RNA三維結構數據發表之前將需要預測的序列發給全球的結構預測團隊,在預測結束后各個團隊反饋預測結果,等三維結構數據發表以后將預測結構與實驗測定的結構進行比較。從而評估RNA三維結構預測的準確性。
2024年12月2日,廣州國家實驗室、廣醫-廣州生物院聯合生科院苗智超教授團隊聯合中國科學院溫州醫學研究所 Eric Westhof 院士,在 Nature Methods 期刊發表了題為:RNA-Puzzles Round V:Blind predictions of 23 RNA structures 的論文,公布了RNA-Puzzles Round V 的結果,對來自全球18個團隊的預測進行了大規模評估,涉及23個RNA結構,包括RNA元件、適配體、病毒元件、核酶和核開關等多種RNA類型。

本輪比賽(Round V)的預測結果顯示,在RNA結構建模方面,一些關鍵步驟仍需克服。特別是,堿基配對的識別:準確識別形成RNA螺旋的堿基對仍然是一個挑戰;non-Watson-Crick結構模塊的識別:正確識別non-Watson-Crick堿基對和RNA結構模塊對于精確建模至關重要;螺旋間的同軸堆積(coaxial):避免螺旋間的打結,并實現正確的同軸堆積是提高預測準確性的關鍵。論文還討論了RNA結構預測的難度取決于是否存在同源模板或者預測序列的長度,鏈數等因素。
為了對預測結果進行客觀評估,本輪比賽采用了多種評估指標,包括:均方根偏差(RMSD):用于衡量預測結構與實驗結構之間的整體相似性,較低的RMSD值表示預測精度較高;相互作用網絡保真度(INF):評估預測結構中堿基配對和堿基堆積相互作用的準確性;變形指數(DI):綜合考慮RMSD和INF值,更全面地反映預測結構的質量;IDDT分數和ARES分數:分別側重于局部和全局精度,以及RNA樣結構特性的評估。這些算法工具和測評數據都已經開源,發布在RNA-Puzzles官網(www.rnapuzzles.org)。
本輪比賽中,排名前四的團隊中有三個團隊也曾在CASP15蛋白質結構預測比賽的RNA賽道中名列前茅,這表明前幾名的預測方法具有較好的穩定性。尤其是陳世杰教授和Rhiju Das團隊,陳世杰教授也在CASP16的比賽中獲得全球第一,但不同預測方法在具體表現上差異不大。未來RNA結構預測領域有望借助人工智能結合經典物理模擬方法和專家經驗實現進一步突破。
論文詳細分析了不同功能類型RNA的預測結果,具體有——
RNA元件:對一些簡單的RNA元件,預測結果較為理想;
適配體:對與配體結合的適配體,預測精度相對較低,尤其是在識別配體結合位點方面;
病毒元件:一些病毒RNA元件的預測結果較好,但也存在一些預測精度較低的情況,尤其是一些包含假結的結構;
核酶:對核酶的催化位點殘基的預測,準確性與RMSD值密切相關;
核開關:對一些具有同源結構的核開關,預測結果較好;而對于一些復雜的核開關,例如T-box核開關,預測精度仍然有待提高。
歡迎全球對RNA結構模擬和結構解析有興趣的同仁加入我們,歡迎參與RNA-Puzzles結構預測,也歡迎結構生物學家把解析的結構提供給RNA-Puzzles進行預測!
廣醫-廣州生物院聯合生科院為論文第一單位,廣州實驗室博士生卜凡是論文第一作者,法國科學院院士Eric Westhof和廣州國家實驗室研究員、廣醫-廣州生物院聯合生科院苗智超教授為共同通訊作者。
苗智超教授和Eric Westhof院士長期專注于生物大分子結構模擬和設計,十多年來一直擔任全球RNA三維結構預測比賽的負責人,制定了該領域的評價標準。苗智超課題組近年來的通訊作者工作在 Nature Medicine、Nature Methods、Nature Neurosciences、Nature Communications、Nucleic Acids Research 等學術期刊上發表。團隊非常歡迎有單細胞組學、空間轉錄組學、生物信息和人工智能等科研背景的博士和碩士研究生、博士后、副研究員的加入。