高通量測序又稱NGS,重新定義了基因組學研究。近年來,NGS技術穩步發展,伴隨著成本下降以及測序應用呈指數增加。本文,我們研究了影響測序文庫質量的關鍵因素,以及,在DNA來源和RNA來源文庫準備過程中存在的挑戰。這些因素包括,DNA/RNA材料的定量和物理性質以及潛在應用(比如,基因組測序、靶向測序、RNA-seq、ChIP-seq、RIP-seq和甲基化),在制備高質量測序文庫的內容中將提到。另外,我們也會討論制備單細胞來源的文庫的方法。
在過去的5年裏,NGS技術在生命科學領域的研究人員中得到了廣泛應用。與此同時,隨著測序技術的發展和進步,衍生了壹些核酸提取和文庫制備的方法。比如,已經可以成功利用來自單細胞的RNA和DNA進行文庫的制備. NGS文庫制備的基礎是將靶向的核酸、RNA或DNA 改造成測序儀可以使用的形式(Fig 1)。在這兒,我們對比了多個文庫制備策略以及NGS應用,主要著眼於與illumina測序技術兼容的文庫。但是,需要指出壹點,本文討論的幾乎所有原則只要稍加修飾便可應用於其他NGS平臺,比如,Life Technologies、Roche和Pacific Biosciences。
壹般來說,文庫制備的核心步驟包括:1)片段化及或選出特定長度的片段,2)將其轉化為雙鏈的形式,3)將寡核苷酸接頭連接至片段末尾以及4)對文庫進行定量;目標DNA片段的大小是NGS文庫構建的關鍵因素。對核酸進行片段化的方法主要包括物理、酶切和化學的方法。物理方法包括聲波剪切(代表:Covaris)和超聲(代表:BioRuptor),酶切方法包括非特異性內切酶和轉座酶片段化;我們實驗室中,Covaris, Woburn, MA主要用於獲得100-5000bp範圍的DNA片段,而Covaris g-TUBEs主要用於mate-pair文庫所必需的6-20kb範圍的DNA片段。酶切的方法包括DNase I或片段化酶的消化,壹個兩種酶的混合(New England Biolabs, Ipswich MA)。兩種方法都很有效。但是,片段化酶相比物理方法會產生更多的假indel。另壹種酶切方法是Illumina的Nextera,利用轉座酶進行隨機片段化並把接頭序列插入雙鏈DNA中。 這種方法有幾個優勢,包括,減少樣品處理和制備的時間。
文庫大小是由插入片段(指的是接頭序列之間的文庫部分)大小決定的,因為接頭序列的長度是不變的。反過來說,最佳插入片段長度是有NGS設備以及特定測序應用決定的。比如, illumina中,最佳片段大小是受簇生成過程影響的,這個過程包括,文庫編寫、稀釋以及分布至芯片表面進行擴增。雖然,短片段擴增更加有效,長片段文庫能夠產生更大、更彌散的簇。我們用illumina測序的文庫最大為1500bp。
最佳文庫大小也是由測序應用決定的。對於外顯子測序來說,80%以上的人類外顯子長度小於200bp。我們測試PE100bp,外顯子文庫大小約為250bp,這樣可以匹配大多數外顯子的平均大小,結果中沒有重疊的讀對。 RNA-seq文庫大小也是由應用決定的。對於基因表達分析我們采用SE100的測序。但是對於,可變剪切或轉錄起始終止位點的判定,我們選擇PE100的方案。大多數應用中,RNA在片段化之前會逆轉錄成cDNA的形式。壹般是利用二價金屬離子(鎂或鋅)對RNA進行可控的熱消化。文庫片段大小可以通過調節消化反應的時間來控制,重復性很好。
在最近對7個RNA-seq文庫制備方法的研究中,大多是先對RNA進行片段化然後進行加接頭。有兩種方法,不利用隨機引物,或者說在SMARTer Ultra Low RNA試劑盒中, 合成具有固定3',5'序列的全長cDNA序列。 全長的cDNA文庫(平均2kb)可以通過長距離PCR(LD-PCR)進行擴增。這種擴增的雙鏈cDNA再通過聲波剪切至合適的長度,用在標準的illumina文庫準備過程中(包括,末端修復和補平,加A和接頭連接,再通過PCR進行擴增。)
另壹種文庫構建後對文庫大小處理步驟是片選以及去除接頭二聚體或其他文庫制備的副產物。接頭二聚體是接頭自連的結果。這些二聚體成簇效率非常高,而且會消耗掉珍貴的芯片空間,但不產出任何有效數據。因此,我們通常利用磁珠法或切膠回收。磁珠法適用於起始材料比較充足的情況。若樣本投入有限,就會生成更多的接頭二聚體。我們的經驗是,磁珠為基礎的方法在這種情況下不適用,需要結合磁珠和切膠回收的方法。
在microRNA/small RNA文庫制備過程中,目的產物通常只比120bp的接頭二聚體長20-30bp。因此,必須使用切膠回收的方法獲得盡可能多的目的序列。這種分離精度對於磁珠來說就不適用。另外,我們經常需要建大插入片段(1kb)的文庫,結合更長的讀長PE300以及無PCR步驟,用於細菌基因組的從頭組裝。為了盡可能獲得可用於組裝的數據,就必須要小心地進行切膠回收以獲得大小較為壹致的插入片段。
在利用DNA樣本進行文庫構建過程中有幾個考慮,包括起始材料的量以及該文庫是用於重測序(有可用於比對的參考序列)還是從頭測序(需要利用此次下機數據組裝出新的參考序列)。文庫制備容易存在bias,這是由於基因組存在高GC或低GC的區域,目前已經開發了解決這些問題的方法,包括仔細選擇用於擴增的聚合酶、循環數、條件以及緩沖液等。
DNA樣本的文庫制備,不管是用於WGS、WES、ChIP-seq還是PCR擴增子,壹般都遵循相同的流程。總的來說,對於任何應用,目標都是使文庫盡可能的復雜。
DNA建庫試劑盒目前有多個品牌。競爭也促使價格迅速下降以及質量的提升。這些試劑盒能夠處理DNA起始量從ug到pg多個級別。但是,我們需要記住壹點,起始量大可以降低擴增循環數,因此文庫復雜度更高。除Nextera外,文庫制備步驟通常包括:1)片段化,2)末端修復,3)5端磷酸化,4)3端加A,5)接頭連接,6)幾個cycle的PCR以富集加了接頭的產物。Ion Torrent流程的主要不同在於平末端連接不同的接頭序列。
起始DNA被片段化後,會使用3個酶的混合物( T4 多聚核苷酸激酶、T4 DNA聚合酶以及 Klenow大片段 )進行末端補平和5端磷酸化。3端加A尾利用Taq聚合酶或Klenow片段(exo-)。Taq在加A尾上更有效率,但Klenow在不能用加熱方法時,比如mate-pair文庫可以適用。在接頭連接過程中,最適的接頭:片段比例大約為10:1,以摩爾數為單位。接頭太多會形成難以分離的二聚體,這些二聚體在隨後的擴增中會占主導地位。末端修復和加A反應後,磁珠或膠回收的方法都適用,但連接反應後我們發現,磁珠的方法能夠更有效地去除接頭二聚體。
為了便於多樣本混合,可以對不同樣本使用不同barcode的接頭。另外barcode也可以由PCR擴增過程經不同barcode的引物加入。可以從多個供貨商購買高質量的帶barcode的接頭和PCR引物。 目前DNA文庫構建的所有組分,從接頭到酶,都有詳細的文字說明,可以組裝成自制的文庫制備試劑盒。
另壹種方法是Nextera方法,利用轉座酶對DNA進行隨機打斷,並在壹個單管中對其加標簽(又稱tagmentation)。這種工程化的酶有兩個功能,對DNA進行片段化,並將特定的接頭加到片段化DNA的兩端。 這些接頭序列在接下來的PCR過程中用於擴增插入片段。PCR反應會加入barcode。這個制備過程相對傳統方法的優勢在於,將片段化、末端修復和接頭連接合並成壹步。這種方法相對於機械片段化的方法來說,對DNA的起始量更加敏感。為了實現在合適的距離進行片段化,轉座酶相對樣本的比例非常關鍵。因為片段大小依賴於反應效率,所有反應的參數,比如,溫度和反應時間,都非常關鍵,需要嚴格控制。
壹些課題組發表了對單個細胞基因組進行測序的結果。現在的策略采用多重鏈置換(MDA)對整個基因組進行擴增。MDA主要是利用了隨機引物和phi29,壹種高度進行性的鏈置換聚合酶。雖然這個技術能夠產生足夠的量用於測序文庫的構建 ,但它的壹個問題在於非線性擴增造成的大量的bias。最近有研究認為通過加入壹個半線性的預擴增步驟能夠減少bias。Fluidgm基於單細胞分離和微流控技術用於單細胞文庫制備,每次運行可獲得最多96個單細胞。
對於RNA文庫,我們需要根據測序目的來進行文庫構建方案的篩選。如果目的是發現復雜全面的轉錄事件,文庫需要覆蓋整個轉錄組,包括,編碼、非編碼、反義以及基因間RNA,而且需要盡可能的完整。但是,很多場合,目的只是研究能夠翻譯成蛋白質的編碼mRNA的轉錄本。另壹種情況只涉及small RNA,大多miRNA,也包括snoRNA,piRNA,snRNA以及tRNA。雖然,我們想要詳述RNA測序文庫的原則,但無法壹壹列舉。感興趣的讀者可以自行研究。
NGS應用到RNA-seq最初成功的例子之壹是 miRNA 。制備miRNA測序文庫非常簡單,通常是壹步反應。事實上,miRNA在5端有天然磷酸修飾,這允許連接酶選擇性地靶向miRNA。
illumina步驟的第壹步,3端阻斷,5端腺苷化的DNA接頭通過截斷的T4 RNA連接酶2被連接至RNA樣本。這個酶經過修飾,能夠對3端接頭底物進行腺苷化。結果是,其他RNA片段在這個反應中不會連接在壹起。只有腺苷化的寡核苷酸可以連接到遊離的RNA的3端末端。由於接頭3端是阻斷的,無法進行自連。下壹步,在ATP和RNA連接酶1的作用下加入5端RNA接頭。 只有5端磷酸化的RNA分子能夠在連接反應中作為有效的底物。第二步連接反應後,逆轉錄引物雜交到3端接頭,開始啟動RT-PCR 擴增(壹般是12個循環)。由於小且片段大小可預測(120bp 接頭序列加上20-30bp miRNA插入片段),文庫或多個barcode混合樣本通常壹起進行切膠回收。 由於存在接頭二聚體以及非miRNA的連接(tRNA和snoRNA),切膠回收非常重要。這種文庫制備方法導致文庫的測序具有方向性,總是從原始RNA的5端到3端。Ion Torrent 的miRNA測序原則也是相似的。Ion Torrent利用兩種不同的接頭連接至miRNA 3端和5端,隨後進行RT-PCR。壹般,文庫構建步驟可以將任何RNA材料構建成有方向性的RNA-seq文庫。
miRNA文庫的壹大限制在於RNA的起始量低(<200ng 總RNA);短接頭二聚體在RT-PCR反應中與目的產物、接頭和miRNA進行競爭。 當存在太多二聚體時,他們會在片段篩選時充斥整個凝膠,汙染產物條帶。為了盡量避免這種情況,很多試劑盒采取了各種方式來避免二聚體的形成。
對於mRNA測序文庫,方法主要包括利用隨機引物或oligo-dT引物進行cDNA合成或在mRNA片段上加接頭後進行某種形式的擴增。mRNA可以由隨機引物或oligo-dT起始產生壹鏈cDNA。如果使用隨機引物,必須先將rRNA去除或減少。rRNA可以通過寡核苷酸探針為基礎的試劑,比如,Ribo-Zero和RiboMinus,進行去除。另外,polyA RNA可以通過oligo-dT磁珠進行正向篩選。
通常希望文庫能夠留有原始目的RNA的鏈的 方向性 。比如,逆轉錄產生的反義RNA在調節基因表達中發揮作用。實際上,lncRNA分析依賴於定向RNA測序。制備定向RNA-seq文庫的方法有幾種。邏輯時,進行cDNA反應,將兩條鏈中的1條有選擇地移除,通過,在第二條cDNA鏈合成時加入dUTP。尿嘧啶包含的鏈可以被響應的酶消化掉或者擴增的時候用不識別尿嘧啶的聚合酶。 另外,加入actinomycin D可以減少壹鏈cDNA合成過程中假義鏈的合成。
另壹種雜交方法利用隨機或錨定oligo-dT引物的接頭序列起始第壹鏈cDNA的合成。接下來,在模板轉換步驟,3端接頭序列添加到cDNA分子。這種方法的明顯優勢在於第壹鏈cDNA分子可以利用3端的唯壹序列標簽無需進行第二鏈合成,直接通過PCR進行擴增。5端唯壹序列標簽在第壹鏈合成過程中引入。
用於cDNA合成的引物設計對於RNA-seq文庫非常重要。比如,rRNA序列可以通過設計靶向rRNA的引物(不用於進壹步擴增)進行去除。 NuGEN Ovation RNA-seq結合SPIA( Single primer isothermal amplification )核酸擴增技術以及用於第壹鏈cDNA合成的引物來抑制rRNA的擴增。另壹種方法中利用4096種六聚體來抑制rRNA序列(識別並消除完美匹配)。749種六聚體保留並用於起始第壹鏈cDNA合成反應。結果是,rRNA reads從78%降至13%。還有壹種方法叫, DP-seq ,利用44個7聚體引物擴增了大部分的小鼠轉錄本。這種引物設計選擇性地抑制了高表達轉錄本的擴增,包括rRNA,並提供了胚胎發育模型中低豐度轉錄本的估計。
最近發表了壹些制備單細胞RNA文庫的方法。壹種方法利用第壹鏈cDNA的多聚核苷酸尾巴,結合模板轉換反應。結果是第壹鏈cDNA產物可以通過通用PCR引物進行擴增。如圖,Figure4B所示,且已並入是試劑盒中。另壹種方法叫 CEL-Seq ,在cDNA 5端合成T7啟動子序列,隨後在體外轉錄過程中進行現象擴增。
單個細胞的總RNA壹般為10pg,但polyA RNA只有0.1pg。因此,這些方法某種程度上需要全轉錄本擴增以產生足夠的建庫所需起始量。這樣大量擴增的弊端就在於大量技術噪音的產生,這壹問題目前尚未解決。 (?)
最後,核糖體印記能夠反應翻譯的任何節點上細胞mRNA轉錄本的混合。這種方法涉及到利用RNase對細胞進行裂解,只留下被核小體保護的30個核苷酸的區域。核小體經蔗糖梯度密度離心進行純化,接著mRNA被從核小體中提取出來。另壹種新的RNA測序的應用是 SHAPE-Seq,通過酰化試劑來偏向性地修飾未配對的堿基以探索RNA的二級結構。通過對修飾的RNA和未修飾的對照進行逆轉錄,對得到的cDNA片段進行測序,比較後能夠揭示核苷酸水平的堿基配對信息。