葡京娱乐场-富盈娱乐场开户

|
四川大學
四川大學 教育部
  • 204 高校采購信息
  • 383 科技成果項目
  • 481 創新創業項目
  • 0 高校項目需求

四川大學計算機學院彭璽教授課題組AI4Science新進展

2025-02-25 09:43:39
云上高博會 http://www.a00n.com

近日,我校計算機學院彭璽教授課題組與四川大學華西醫院羅晗研究員課題組、生物治療國家重點實驗室陳路研究員課題組合作在基于細胞量化的元細胞推斷方法上取得新進展,相關成果近日被Nature Communications正式接收。計算機學院(軟件學院、智能科學與技術學院)為該論文第一完成單位,彭璽教授為唯一通訊作者,2020級直博研究生李云帆為唯一第一作者。

論文:MetaQ: fast, scalable and accurate metacell inference via single-cell quantization[1]

【背景】:近年來,單細胞測序技術取得了快速的進展,能夠捕獲的細胞數量不斷增加,其在揭示細胞異質性和重建細胞發育軌跡方面展現出巨大的優勢。然而,隨著數據規模的增長,單細胞測序數據的分析也面臨嚴峻的計算挑戰。例如,典型的單細胞數據分析流程(包括數據整合、聚類、可視化和差異表達分析)在處理五十萬個細胞時需耗時約16小時,而當細胞數量增加至六十萬時,即便在配備512 GB內存的專業計算平臺上,也可能因內存不足而導致程序崩潰。

為應對大規模單細胞測序數據帶來的計算開銷,研究人員提出了多種高效的單細胞分析工具,主要用于數據插補、整合、聚類和細胞類型注釋等任務。然而,這些工具通常專門針對特定任務設計,難以直接集成到現有的單細胞數據分析框架中。為實現更通用且高效的單細胞數據處理,一種解決方案是對原始數據進行壓縮,進而降低數據冗余,賦能傳統分析工具以更高效地處理大規模測序數據。針對單細胞數據壓縮,一種代表性方法是元細胞(Metacell)推斷,其通過聚合生物學上相似的細胞群體,將若干個單細胞壓縮為單個代表性的元細胞,從而在最大程度上保留生物信息的情況下有效減少了細胞數量。

元細胞推斷方法在大規模數據處理中具有顯著優勢。一方面,元細胞帶來的數據壓縮減少了測序數據分析的計算開銷;其次,通過聚合特征相似的細胞,元細胞緩解了數據的稀疏性,在一定程度上提升了下游分析(如細胞類型注釋、發育軌跡推斷等)的魯棒性。然而,盡管元細胞推斷方法在一些應用場景下取得了令人滿意的效果,其在大規模數據集上的準確性和效率仍存在不足。例如,當前最優的SEACell算法[2]通過構建全局的鄰接矩陣進行單細胞聚類,并根據聚類結果來推斷元細胞。該算法在處理較小規模數據時取得了良好的效果,但當處理10萬個單細胞時則需要大于一天的時間開銷,且由于其指數級的內存開銷,難以處理更大規模的單細胞數據。換而言之,現有的元細胞推斷方法本質上將計算瓶頸從下游分析轉移到了元細胞推理階段,而未真正解決計算復雜度問題。

【創新】:本文提出了首個可處理任意規模單細胞數據的元細胞推斷算法MetaQ,將計算復雜度從現有方法的指數級降低到線性。受多細胞生物細胞分化過程的啟發,MetaQ將每個元細胞視為一個特化細胞亞群的公共祖先,其能夠有效地派生出該亞群的全部細胞。基于該思想,MetaQ將所有細胞量化到一個具有若干可學習條目的碼本,碼本的每個條目用于重構其所量化的原始細胞。為了更好的重構效果,相似的細胞將被量化到同一碼本條目中。換而言之,該生成式細胞量化過程有助于識別同質細胞子集,每個碼本條目本質上對應一個元細胞表征,從而實現準確的元細胞推斷。此外,不同于現有的元細胞方法僅面向單組學測序數據,本文提出的MetaQ方法支持多組學配對數據的元細胞推斷,大大提升了方法的適用范圍。

圖1 MetaQ算法示意圖

【方法】:本文提出的基于細胞量化的元細胞推斷方法整體框架如圖1所示:(a)對于給定的單組學或多組學單細胞數據,首先使用編碼器學習細胞表征;(b)在表征空間,引入一個由若干可學習條目組成的元細胞碼本,每個條目對應一個元細胞的表征。之后,通過將每個細胞劃分到最相似的碼本條目來實現細胞量化。為了防止碼本坍縮,記錄不同條目的使用情況,并調整被過多或過少使用的碼本條目;(c)每個碼本條目通過解碼器重構其所量化的全部細胞。為了更好的重構效果,更相似的細胞將被劃分到同一碼本條目中;(d)訓練完成后,對每個碼本條目對應的原始細胞數據進行平均來推斷元細胞;(e)推斷出的元細胞作為原始數據的代理,可以無縫地用于各類單細胞下游分析。

【結果】:本文在六個數據集上驗證了所提出MetaQ方法的性能和效率。與當前最優的SEACell算法[2]相比,MetaQ在處理10萬個細胞時節約了約100倍的時間和25倍的內存開銷。實驗表明MetaQ推斷的元細胞在各種下游任務上均優于現有的方法,包括細胞類型注釋、發育軌跡推斷、批次整合、聚類和差異表達分析等。以下展示部分實驗結果,更多結果和分析詳見原文。

圖2 MetaQ在Human Fetal Atlas數據集的元細胞推斷結果

【總結】:本文提出了一種高效且準確的元細胞推斷算法,將現有方法的復雜度從指數級降低至線性。所推斷的元細胞作為原始細胞的壓縮表示,在保留生物特性的同時顯著減少細胞數量,從而使經典單細胞分析工具處理數百萬個細胞變為可能。考慮到高通量單細胞測序技術的進步和數據的規模不斷增加,MetaQ有望成為一個具有廣泛應用場景的數據處理工具。本研究是機器學習算法在生物信息分析中的一次成功應用,也是彭璽教授研究組近年來對AI4Science研究的又一次有益嘗試。

百家乐游戏图片| 徐汇区| 光泽县| 百家乐赚水方法| 百家乐官网龙虎| 大发888网页登录| 百家乐长龙太阳城| 百家乐官网永利娱乐网| 蕲春县| 大发888手机版官网| 百家乐百姓话题| 网上百家乐官网假| 淘金盈娱乐| 大发888游戏平台hana| 澳门百家乐鸿福厅| 澳门百家乐官网规则视频| 大发888娱乐吧| 博彩百家乐画谜网| 百家乐光纤洗牌机如何做弊| 百家乐官网怎样玩的| 百家乐官网赌场老千| 免费棋牌游戏| 大发888真钱帐户注册| 百家乐对付抽水| 定24山尺寸深浅土色| 广东百家乐主论坛| 什么是百家乐官网的大路 | 赌片百家乐官网的玩法技巧和规则 | 网上百家乐官网真实度| bet365娱乐在线| 百家乐记算| 百家乐规则技法| 巴厘岛百家乐官网的玩法技巧和规则 | 百家乐讯特| 百家乐专打单跳投注法| 澳门百家乐官网游戏下| 百家乐官网长玩必输| 满城县| 临安市| 邯郸百家乐官网园真钱区| 百家乐官网高手技巧|