我們提出了壹個稍微修改的工作流程,用於整合 scRNA-seq 數據集。我們不再使用("CCA") 來識別錨點,而是使用互惠 PCA ("RPCA")。在使用RPCA確定任意兩個數據集之間的錨點時,我們將每個數據集投影到其他 PCA 空間中,並按相同的鄰近要求尋找錨點。兩個工作流的命令基本相同,但兩種方法可能在不同的環境中應用。
CCA 非常適合在細胞類型保守時識別錨點,但在整個實驗中,基因表達通常存在非常顯著的差異。因此,基於CCA的整合能夠在實驗條件或疾病狀態引入非常強烈的表達變化時,或在將數據集跨模式和物種時進行綜合分析。但是,基於 CCA 的整合可能導致過度校正,尤其是當很大壹部分細胞在數據集之間不重疊時。
基於RPCA的集成運行速度明顯加快,代表了壹種更為保守的方法,即不同生物狀態的細胞在整合後不太可能"對齊"。因此,我們建議RPCA應用在如下綜合分析中:
壹個數據集中的很大壹部分細胞在另壹個數據集中沒有匹配類型
數據集來自同壹平臺(即10x的多個通道)
有大量的數據集或細胞要整合
下面,我們演示了互惠 PCA 的用法。雖然命令幾乎相同,但此工作流要求用戶在整合之前在每個數據集上單獨運行主成分分析 (PCA)。用戶在運行時還應將"降維"參數設置為"rpca"。
我們使用[FindIntegrationAnchors()]識別錨點,該功能以 Seurat 對象列表作為輸入,並使用這些錨點將兩個數據集集成在壹起。
現在,我們可以對所有細胞進行單次整合分析!
結果表明,基於rpca的整合更為保守,在這種情況下,不能完全對齊實驗中細胞的亞群(如naive and memory T cells)。您可以通過增加參數 k.anchor 來增加對齊的強度,該參數默認設置為 5。將這壹參數增加到20將有助於對齊這些亞群。
現在,數據集已經整合,您可以按照之前的步驟來識別細胞類型和細胞類型特定響應。
作為壹個例子,我們重復上述分析,但使用 SCTransform 標準化數據。我們可以選擇將方法參數設置為 glmGamPoi ( 安裝在這裏 ),以便更快地估計回歸參數。