欧美日韩中文无线码亚洲欧美中文日韩,国产在线码观看清码视频,国产又粗又大的成人片在线观看,伊人伊成久久人综合网996,性色a码一区二区,久久亚洲中文字幕毛片无码,日本不卡一区

搜索
科研
動(dòng)態(tài)

重慶大學(xué)曾遠(yuǎn)松團(tuán)隊(duì)在Nature子刊《Nature Communications》發(fā)表研究論文

2025.05.20 瀏覽量:

5月20日,Nature子刊《Nature Communications》在線發(fā)表了重慶大學(xué)大數(shù)據(jù)與軟件學(xué)院曾遠(yuǎn)松團(tuán)隊(duì)研究論文,“CellFM: a large-scale foundation model pre-trained on tran omics of 100 million human cells”,開(kāi)發(fā)了當(dāng)前全球最大的單細(xì)胞基礎(chǔ)模型。

單細(xì)胞測(cè)序技術(shù)的飛速發(fā)展,帶來(lái)了海量數(shù)據(jù),也伴隨噪聲、稀疏性和批次效應(yīng)等挑戰(zhàn)。如何使用統(tǒng)一的框架最大程度地利用這些數(shù)據(jù),成為領(lǐng)域里亟待解決的問(wèn)題。大語(yǔ)言模型(LLM)如ChatGPT等,已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)了強(qiáng)大的泛化能力,這為單細(xì)胞大語(yǔ)言模型的誕生提供了靈感。然而,現(xiàn)有的單細(xì)胞大模型大多受限于數(shù)據(jù)規(guī)模,性能難以突破瓶頸。

曾遠(yuǎn)松(第一作者兼第一通訊)聯(lián)合中山大學(xué)、華為、新格元兩家各領(lǐng)域龍頭公司共同研發(fā)的單細(xì)胞基礎(chǔ)大模型 CellFM 正式發(fā)表在 Nature Communications 雜志上。該模型基于超1億個(gè)人類細(xì)胞進(jìn)行訓(xùn)練(數(shù)據(jù)規(guī)模為同類模型的兩倍以上),并依托廣州超算中心的強(qiáng)大計(jì)算資源與華為昇騰芯片的高效算力,構(gòu)建了一個(gè)超過(guò)8億參數(shù)的模型,參數(shù)規(guī)模達(dá)同類模型的8倍以上。

圖片1.png

億級(jí)人類細(xì)胞數(shù)據(jù)×8億參數(shù):CellFM引領(lǐng)單細(xì)胞大模型升級(jí)

目前,面向單一物種的單細(xì)胞轉(zhuǎn)錄組大模型大多基于千萬(wàn)級(jí)細(xì)胞數(shù)據(jù)進(jìn)行訓(xùn)練,模型的泛化能力和對(duì)復(fù)雜生物過(guò)程的表征能力仍存在一定局限。為此,研究團(tuán)隊(duì)收集了公開(kāi)的人類單細(xì)胞轉(zhuǎn)錄組開(kāi)源數(shù)據(jù),經(jīng)過(guò)篩選、清洗、均一化等預(yù)處理流程,建立了目前已知最大規(guī)模的超過(guò)1億細(xì)胞的高質(zhì)量訓(xùn)練數(shù)據(jù)集;通過(guò)利用這些多樣化的單細(xì)胞數(shù)據(jù)集,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)具有8億參數(shù)的模型CellFM(圖1),這在規(guī)模和能力上是一個(gè)顯著的飛躍,使其比當(dāng)前的單一物種LLMs大8倍。CellFM的核心是ERetNet,這是一種為效率和性能而設(shè)計(jì)的Transformer架構(gòu)變體,使研究團(tuán)隊(duì)的模型能夠輕松處理龐大且復(fù)雜的數(shù)據(jù)集。研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,CellFM在包括細(xì)胞注釋、擾動(dòng)預(yù)測(cè)和基因功能預(yù)測(cè)在內(nèi)的各種單細(xì)胞下游應(yīng)用中,性能超過(guò)了現(xiàn)有模型。隨著單細(xì)胞RNA測(cè)序領(lǐng)域的不斷發(fā)展,研究團(tuán)隊(duì)的工作有望激發(fā)科學(xué)界及更廣泛領(lǐng)域的想象力。

圖片1.jpg

圖1 CellFM模型圖

CellFM賦能高精度基因功能預(yù)測(cè)

基因功能預(yù)測(cè)是生命科學(xué)研究的基礎(chǔ)。傳統(tǒng)的生物學(xué)研究需要大量實(shí)驗(yàn),而CellFM大模型通過(guò)虛擬預(yù)測(cè),能夠快速鎖定功能靶點(diǎn),依靠“計(jì)算先行、實(shí)驗(yàn)驗(yàn)證”,構(gòu)建AI for Science高效研究新范式。CellFM可以對(duì)不同生物學(xué)功能的基因進(jìn)行準(zhǔn)確分類,在三種二分類問(wèn)題中準(zhǔn)確率(Accuracy,縮寫(xiě)ACC)都位列第一,如劑量敏感性任務(wù)取得最佳的ACC,較UCE和scGPT分別提升5.68%和5.86%,且UMAP可視化顯示出更清晰的基因簇分布。

圖片2.jpg

圖2 各模型在3種基因功能二分類任務(wù)中的ACC對(duì)比。CellFM在3種任務(wù)中都獲得了最高的ACC。

CellFM助力靶點(diǎn)預(yù)測(cè)與擾動(dòng)響應(yīng)模擬

CellFM能夠模擬細(xì)胞對(duì)基因敲除、過(guò)表達(dá)或藥物處理的響應(yīng),快速篩選潛在的藥物作用或基因調(diào)控結(jié)果。用CellFM的基因嵌入向量替換經(jīng)典擾動(dòng)模型GEARS的嵌入向量,在Adamson和Norman數(shù)據(jù)集上,差異基因變化的Pearson相關(guān)系數(shù)在所有對(duì)比模型中最優(yōu)。CellFM還能夠根據(jù)擾動(dòng)反向預(yù)測(cè)靶點(diǎn)基因,例如基于疾病樣本中的異常細(xì)胞,逆推出可能導(dǎo)致該表型的關(guān)鍵基因或藥物靶點(diǎn)。CellFM反向擾動(dòng)預(yù)測(cè)的Top10命中率達(dá)81.8%,比scGPT高18.1%;且Top3命中率達(dá)到了scGPT的2倍,顯著提升尋找靶點(diǎn)基因的效率。

圖片3.jpg

圖3 各模型擾動(dòng)靶點(diǎn)基因預(yù)測(cè)命中率。CellFM的Top1-Top10命中率均領(lǐng)先其他模型。


作者介紹:

曾遠(yuǎn)松博士現(xiàn)任重慶大學(xué)大數(shù)據(jù)與軟件學(xué)院弘深青年教師,2023年7月博士畢業(yè)于中山大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院。曾博長(zhǎng)期專注于“人工智能+”單細(xì)胞和空間多組學(xué)數(shù)據(jù)分析領(lǐng)域,并在Nature Computational Science、Nature Communications、Communications biology、Bioinformatics等期刊上發(fā)表了二十余篇文章。他主持了國(guó)家自然科學(xué)基金青年項(xiàng)目、國(guó)家資助博士后研究人員計(jì)劃項(xiàng)目、中國(guó)博士后面上項(xiàng)目和中央高校基本科研業(yè)務(wù)費(fèi)“基礎(chǔ)與前沿交叉專項(xiàng)”(青年項(xiàng)目)等項(xiàng)目。此外,他還獲得了2024年度ACM SIGBIO China“優(yōu)博獎(jiǎng)”和2024年度川渝科技學(xué)術(shù)優(yōu)秀論文二等獎(jiǎng)。

論文地址:https://www.nature.com/articles/s41467-025-59926-5

代碼地址:https://github.com/biomed-AI/CellFM

來(lái)源:大數(shù)據(jù)與軟件學(xué)院

作者:曾遠(yuǎn)松 蒲姝穎