Sanger測序使用DNA聚合酶來延伸與未確定序列的模板結合的引物。直到摻入鏈終止核苷酸。每個測序由壹組四個獨立的反應組成,每個反應包含所有四種脫氧核苷酸三磷酸(dNTP),並與有限量的不同雙脫氧核苷三磷酸(ddNTP)混合。因為ddNTP缺少延伸所需的3-OH基團,所以延伸的寡核苷酸選擇性地終止於G、A、T或C..終點取決於反應中相應的雙脫氧。每個dNTPs和ddNTPs的相對濃度可以調節,從而可以得到壹組幾百到幾千個堿基的鏈終止產物。它們有相同的起點,但終止於不同的核苷酸。不同大小的片段可通過高分辨率變性凝膠電泳分離,凝膠處理後可通過X射線放射自顯影或非同位素標記進行檢測。
什麽是基因組測序?
全基因組重測序是對基因組序列已知的個體的基因組進行測序,並在個體或群體水平上分析差異的方法。隨著基因組測序成本的降低,人類疾病致病突變的研究已經從外顯子區域擴展到全基因組。高通量測序通過構建不同長度的插入片段文庫,結合短序列和雙端測序,可以在全基因組水平上檢測常見、低頻甚至罕見的突變位點和與疾病相關的結構變異,具有巨大的科研和產業價值。
什麽是從頭測序?
從頭測序也叫從頭測序:它可以在沒有任何已有序列數據的情況下,對壹個物種進行測序,利用生物信息學分析對序列進行拼接和組裝,從而獲得該物種的基因組圖譜。獲得壹個物種的全基因組序列是加速了解這個物種的重要捷徑。隨著新壹代測序技術的快速發展,基因組測序所需的成本和時間比傳統技術大大降低,大規模基因組測序越來越好,基因組學研究也迎來新的發展機遇和革命性突破。利用新壹代高通、高效測序技術和強大的生物信息分析能力,可以高效、低成本地測定和分析所有生物的基因組序列。
順序名詞關系圖
什麽是碎片?
片段是分型的片段,這些片段通過測序進行測定,測得的結果是讀數,可分為單端側和雙端側。在單端測序中,讀數只要從片段的壹端測量,而在雙端測序中,將從壹個片段的兩端獲得兩個讀數。
什麽是閱讀?
高通量測序平臺產生的序列稱為閱讀序列。
(測序讀出的堿基序列片段,測序的最小單位;)
什麽是重疊群?
剪接軟件是基於閱讀之間的重疊區域,剪接得到的序列稱為重疊群。(通過閱讀拼接重疊區域組裝的無缺口的序列片段;)
什麽是ContigN50?
拼接後,閱讀將得到壹些不同長度的重疊群。將所有重疊群長度相加,得到總重疊群長度。然後將所有的重疊群從長到短排序,如重疊群1、重疊群2、重疊群3...重疊群25。按此順序添加重疊群。當添加的長度達到重疊群總長度的壹半時,最後添加的重疊群長度為重疊群50。示例:重疊群1+重疊群2+重疊群3+重疊群4 =重疊群。
當總長度為*1/2時,Contig4的長度為ContigN50。ContigN50可以作為判斷基因組拼接結果好壞的標準。
什麽是腳手架
基因組從頭測序(沒有參考基因組測序,研究人員需要從頭拼接序列)。通過reads拼接獲得重疊群後,往往需要構建454配對末端文庫或illuminate-pair文庫,以獲得壹定大小(如3Kb、6Kb、10Kb、20Kb)片段兩端的序列。基於這些序列,我們可以確定壹些重疊群之間的順序關系,這些已知順序的重疊群構成支架。
(重疊群排列由pairends信息決定,中間有缺口)
什麽是腳手架
腳手架50的定義類似於ContigN50。重疊群拼接裝配獲得壹些不同長度的支架。將腳手架的所有長度相加,得到腳手架的總長度。然後把所有腳手架從長到短排序,比如腳手架1,腳手架2,腳手架3...腳手架25。按此順序添加腳手架。當增加的長度達到腳手架總長度的壹半時,最後增加的腳手架長度為腳手架50。例如:當腳手架1+腳手架2+腳手架3+腳手架4+腳手架5 =腳手架總長度*1/2時,腳手架5的長度為腳手架50。ScaffoldN50可以作為判斷基因組拼接結果好壞的標準。
什麽是測序深度和覆蓋率?
測序深度:指測序獲得的堿基總數與待測基因組大小的比值。假設壹個基因大小為2M,測序深度為10X,那麽獲得的數據總量為20M。
覆蓋率:指測序獲得的序列在整個基因組中所占的比例。
Gap:由於基因組中存在高GC、重復序列等復雜結構,最終測序組裝得到的序列往往無法覆蓋部分區域,這部分未得到的區域稱為。比如對壹個細菌基因組測序,覆蓋率是98%,那麽還有2%的序列區域沒有通過測序得到。
RPKM和FPKM是什麽?
RPKM,readsperklobaseofexonmodelpermillionmappedreads,isdefinedinthisway:
每100000000個圖譜上的讀數中,從圖譜到外顯子每1k個堿基上的讀數。如果人類基因組有1萬個讀碼,每個外顯子對應多少個,外顯子長度不同,每個1K堿基對應多少個讀碼,大概就是這個RPKM的直觀解釋了。
如果對應某個特定基因,那麽每100000個外顯子讀數映射到這個基因上是多少千字節的讀數?