2.單細胞 RNA-seq：計數矩陣的生成

根據所使用的文庫制備方法，RNA序列(也稱為讀序列或標簽)將從轉錄本的3端(或5端)(10X Genomics, cell -seq2, Drop-seq, inDrops)或全長轉錄本(Smart-seq)中獲得。

針對感興趣的生物學問題選擇不同的方法。下面列出了這些方法的優點：

3 '端測序與全長測序需要進行許多相同的分析步驟，但 3' 端測序來越受歡迎，在分析中包含更多步驟。因此，我們將詳細分析來自這些 3' 端測序的數據，主要是基於液滴的方法（inDrops、Drop-seq、10X Genomics）。

對於 scRNA-seq 數據的分析，了解 每個reads中存在哪些信息 以及我們如何在分析中使用它是很有幫助的。

對於3 '端測序方法來說，從同壹轉錄本的不同分子中讀取的信息，只會從轉錄本的3 '端讀取，因此序列相同的可能性很大。然而，在文庫制備過程中的PCR步驟也可以產生read 復制。為了確定壹個reads是生物的還是技術上的重復，這些方法使用獨特的分子標識符(UMIs)。

所以我們需要跟蹤 UMI，但是我們還需要什麽信息來正確量化我們樣本中每個細胞中每個基因的表達呢? 無論液滴方法是什麽，在細胞水平上進行適當的定量都需要以下條件：

例如，當使用 inDrops v3 文庫制備方法時，以下表示如何在四次reads中獲取所有信息：

對於不同的基於液滴的 scRNA-seq 方法，scRNA-seq 的分析工作流程是相似的，但它們之間的 UMI、細胞 ID 和樣本索引會有所不同。例如，下面是 10X 序列讀取的示意圖，其中索引、UMI 和條形碼的放置方式不同：

scRNA-seq 方法將確定如何從測序讀數中解析條形碼和 UMI。因此，盡管壹些特定步驟會略有不同，但無論使用何種方法，整個工作流程通常都會遵循相同的步驟。壹般工作流程如下圖所示：

工作流程的步驟是：

無論進行何種分析，基於每個條件的單個樣本得出的關於總體的結論都是不可信的。 仍然需要生物學重復！ 也就是說，如果您想得出與總體相對應的結論，而不單是做單個樣本。

我們首先討論工作流程的第壹部分，即從原始測序數據生成計數矩陣。我們將重點介紹基於液滴的方法使用的 3' 端測序，例如 inDrops、10X Genomics 和 Drop-seq。

測序後，測序設備將以 BCL 或 FASTQ 格式 輸出原始測序數據 或生成計數矩陣 。如果reads是 BCL 格式，那麽我們需要轉換為 FASTQ 格式。有壹個有用的命令行工具 bcl2fastq 可以輕松執行此轉換。

對於許多 scRNA-seq 方法，從原始測序數據生成計數矩陣將經歷類似的步驟。

alevin 是壹種命令行工具，用於估計對轉錄本 3' 端進行測序的 scRNA-seq 數據的表達。 umi-tools 和 zUMI 是可以執行這些過程的附加工具。這些工具結合了 UMI 的折疊以校正放大偏差。此過程中的步驟包括：

如果使用 10X Genomics 文庫制備方法，上述所有步驟將通過 Cell Ranger 管道完成。

可以使用 FASTQ 文件來解析細胞barcode、UMI 和樣本barcode。對於基於液滴的方法，由於以下原因，許多細胞barcode將匹配少量reads（< 1000 次read）：

這些多余的條形碼需要在reads比對之前從序列數據中過濾掉。為了進行這種過濾，為每個細胞提取並保存“細胞條形碼”和“分子條形碼”。例如，如果使用“umis”工具，信息將添加到每次read的標題行，格式如下：

文庫制備方法中使用的已知細胞條形碼應該是已知的，未知條形碼將被丟棄，同時允許與已知細胞條形碼的不匹配數量可接受。

如果是對多個樣本測序，則該過程的下壹步是對對樣本進行拆分。這是此過程的壹個步驟，不是由“umis”工具處理的，而是由“zUMI”完成的。我們需要解析reads以確定與每個細胞相關的樣本barcode。

為了確定read源自哪個基因，reads使用傳統 (STAR) 或輕量級方法 (Kallisto/RapMap) 進行比對。

重復的 UMI 被折疊，並且只有唯壹的 UMI 使用 Kallisto 或 featureCounts 等工具進行量化。結果輸出是壹個按基因計數矩陣的單元格：

矩陣中的每個值代表源自相應基因的細胞中的read數。使用計數矩陣，我們可以探索和過濾數據，只保留更高質量的細胞。