北京基因組所(國(guó)家生物信息中心)等合作研發(fā)單細(xì)胞和空間轉(zhuǎn)錄組中環(huán)形RNA深度學(xué)習(xí)算法
環(huán)形RNA是一類廣泛表達(dá)的非編碼RNA,有較高的細(xì)胞類型及組織表達(dá)特異性,在器官發(fā)育及腫瘤發(fā)生等過(guò)程中起著重要的調(diào)控作用。環(huán)形RNA由3‘端的受體位點(diǎn)和5’端的供體位點(diǎn)共價(jià)連接形成,這一過(guò)程被稱為反向剪接,然而由于缺少poly(A)尾,環(huán)形RNA無(wú)法被經(jīng)過(guò)polyA富集等轉(zhuǎn)錄組建庫(kù)方式有效捕獲。因此,環(huán)形RNA的表達(dá)信息在絕大部分單細(xì)胞以及空間轉(zhuǎn)錄組數(shù)據(jù)中缺失。為了獲得豐富的單細(xì)胞及空間水平的環(huán)形RNA表達(dá)信息,需要研發(fā)新型環(huán)形RNA表達(dá)預(yù)測(cè)算法。
中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)高遠(yuǎn)團(tuán)隊(duì)與中國(guó)科學(xué)院北京生命科學(xué)研究院趙方慶團(tuán)隊(duì)聯(lián)合研發(fā)了深度學(xué)習(xí)模型CIRI-deep,以準(zhǔn)確預(yù)測(cè)不同樣本間的差異剪接環(huán)形RNA。該模型從環(huán)形RNA調(diào)控機(jī)制角度出發(fā),整合了3527個(gè)環(huán)形RNA特異的順式元件以及1499個(gè)樣本特異的反式因子作為輸入特征,且不依賴于傳統(tǒng)的反向剪接信號(hào)識(shí)別,可以在任意轉(zhuǎn)錄組樣本間預(yù)測(cè)差異剪接的環(huán)形RNA。評(píng)估結(jié)果表明,CIRI-deep可以實(shí)現(xiàn)多種轉(zhuǎn)錄組測(cè)序數(shù)據(jù)中差異剪接環(huán)形RNA的可靠預(yù)測(cè),并在單細(xì)胞及空間水平實(shí)現(xiàn)細(xì)胞類型特異環(huán)形RNA的準(zhǔn)確解析,具有廣泛的應(yīng)用場(chǎng)景。
研究團(tuán)隊(duì)首先從397個(gè)深度測(cè)序的全轉(zhuǎn)錄組(total RNA-seq)樣本中識(shí)別了超過(guò)2500萬(wàn)高度可信的環(huán)形RNA差異剪接事件。由于這些剪接事件覆蓋了25個(gè)人體組織,使用它們作為訓(xùn)練集,使CIRI-deep具有良好的泛化性能。CIRI-deep在測(cè)試數(shù)據(jù)集上的AUROC值達(dá)到了0.906,并且可以準(zhǔn)確預(yù)測(cè)來(lái)自非訓(xùn)練集病理?xiàng)l件與正常樣本間的環(huán)形RNA差異剪接。此外,在低深度測(cè)序的轉(zhuǎn)錄本中,CIRI-deep對(duì)差異環(huán)形RNA的預(yù)測(cè)效果優(yōu)于基于reads數(shù)的統(tǒng)計(jì)檢驗(yàn)方法。
為了解釋CIRI-deep的預(yù)測(cè)原理,研究團(tuán)隊(duì)研發(fā)了一種深度學(xué)習(xí)可解釋性分析框架Adapted Integrated Gradient(AIG),以量化分析組織特異環(huán)形RNA的調(diào)控因素及其貢獻(xiàn)。結(jié)果表明,相較于基因序列結(jié)構(gòu)等順式元件,RNA結(jié)合蛋白等反式因子的表達(dá)水平對(duì)預(yù)測(cè)準(zhǔn)確性的貢獻(xiàn)更大,且具有更強(qiáng)的組織特異性。該分析框架驗(yàn)證了已知的環(huán)形RNA剪接的調(diào)控因素,如剪接位點(diǎn),內(nèi)含子區(qū)域的Alu元件,F(xiàn)US蛋白的表達(dá)等,也提示了之前未發(fā)現(xiàn)的潛在調(diào)控因子如NOVA2,KHDRBS3等對(duì)環(huán)形RNA剪接的影響。
為了從polyA富集測(cè)序的單細(xì)胞以及空間轉(zhuǎn)錄組數(shù)據(jù)中挖掘環(huán)形RNA表達(dá)水平差異,研究團(tuán)隊(duì)進(jìn)一步利用polyA數(shù)據(jù)訓(xùn)練了CIRI-deepA模型。結(jié)果表明,CIRI-deepA的預(yù)測(cè)表現(xiàn)大幅超過(guò)直接使用polyA數(shù)據(jù)推斷差異剪接環(huán)形RNA的效果。在腦膠質(zhì)瘤數(shù)據(jù)集上應(yīng)用CIRI-deepA表明該模型可有效預(yù)測(cè)腫瘤細(xì)胞群體和健康細(xì)胞群體之間的差異剪接環(huán)形RNA。研究團(tuán)隊(duì)也將CIRI-deepA應(yīng)用到了10X單細(xì)胞數(shù)據(jù)集上,準(zhǔn)確預(yù)測(cè)了不同細(xì)胞群體的特異高表達(dá)環(huán)形RNA。另外,在空間轉(zhuǎn)錄組數(shù)據(jù)中,CIRI-deepA可用于預(yù)測(cè)空間區(qū)域特異高表達(dá)的環(huán)形RNA,并實(shí)現(xiàn)對(duì)環(huán)形RNA表達(dá)進(jìn)行空間區(qū)域水平的可視化。利用CIRI-deepA預(yù)測(cè)的高度特異表達(dá)環(huán)形RNA,可進(jìn)一步解析不同區(qū)域的細(xì)胞類型構(gòu)成。
綜上所述,CIRI-deep模型可有效用于各轉(zhuǎn)錄組樣本間推斷差異剪接環(huán)形RNA,極大拓展了環(huán)形RNA的研究范圍,為環(huán)形RNA研究提供了新的高效分析方法。同時(shí),CIRI-deepA模型可以提供單細(xì)胞及空間水平環(huán)形RNA的有效解析,為挖掘細(xì)胞類型特異的環(huán)形RNA標(biāo)志物提供了重要的方法學(xué)工具。
該成果以“CIRI-Deep Enables Single-Cell and Spatial Transcriptomic Analysis of Circular RNAs with Deep Learning”為題,于2月2日發(fā)表于Advanced Science?期刊。中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)高遠(yuǎn)研究員以及北京生命科學(xué)研究院趙方慶研究員為本文的通訊作者,北京基因組研究所博士研究生周子菡和北京生命科學(xué)研究院張金陽(yáng)副研究員為本文的共同第一作者。該研究得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金及中科院人才等項(xiàng)目的資助。
基于深度學(xué)習(xí)的環(huán)形RNA差異剪接預(yù)測(cè)算法CIRI-deep