當前位置:吉日网官网 - 傳統節日 - 全基因組選擇的模型匯總(轉載)

全基因組選擇的模型匯總(轉載)

在介紹GS模型之前,我們有必要先來了解壹下混合線性模型(Mixed Linear Model,MLM)。混合線性模型是壹種方差分量模型,既然是線性模型,意味著各量之間的關系是線性的,可以應用疊加原理,即幾個不同的輸入量同時作用於系統的響應,等於幾個輸入量單獨作用的響應之和(公式1)。

既然是混合效應模型,則既含有固定效應,又含有隨機效應。所謂固定效應是指所有可能出現的等級或水平是已知且能觀察的,如性別、年齡、品種等。所謂隨機效應是指隨機從總體中抽取樣本時可能出現的水平,是不確定的,如個體加性效應、母體效應等(公式2)。

式中 y 為觀測值向量; β 為固定效應向量; μ 為隨機效應向量,服從均值向量為0、方差協方差矩陣為G的正態分布 μ ~ N(0,G) ; X 為固定效應的關聯矩陣; Z 為隨機效應的關聯矩陣;?為隨機誤差向量,其元素不必為獨立同分布,即 ? ~ N(0,R) 。同時假定 Cov(G,R)=0 ,即G與R間無相關關系, y 的方差協方差矩陣變為 Var(y)=ZGZ+R 。若 Zμ 不存在,則為固定效應模型。若 Xβ 不存在,則為隨機效應模型。

在傳統的線性模型中,除線性關系外,響應變量還有正態性、獨立性和方差齊性的假定。混合線性模型既保留了傳統線性模型中的表型 正態性 分布假定條件,又對獨立性和方差齊性不作要求,從而擴大了適用範圍,目前已廣泛應用於基因組選擇。

很早以前C.R.Henderson就在理論上提出了最佳線性無偏預測(Best Linear Unbiased Prediction,BLUP)的統計方法,但由於計算技術滯後限制了應用。直到上世紀70年代中期,計算機技術的發展為BLUP在育種中的應用提供了可能。BLUP結合了最小二乘法的優點,在協方差矩陣已知的情況下,BLUP是分析動植物育種目標性狀理想的方法,其名稱含義如下:

在混合線性模型中,BLUP是對隨機效應中隨機因子的預測,BLUE(Best Linear Unbiased Estimation)則是對固定效應中的固定因子的估算。在同壹個方程組中既能對固定效應進行估計,又能對隨機遺傳效應進行預測。

BLUP方法最初應用在動物育種上。傳統的動物模型是基於系譜信息構建的親緣關系矩陣(又稱A矩陣)來求解混合模型方程組(Mixed Model Equations,MME)的,因此稱之ABLUP。Henderson提出的MME如下所示:

式中X為固定效應矩陣,Z為隨機效應矩陣,Y為觀測值矩陣。其中R和G:

其中A為親緣關系矩陣,因此可轉化公式為:

進壹步可轉化為:

式中, X、Y、Z 矩陣均已知,親緣關系逆矩陣A -1 可計算得到,k值計算如下:

通過求解方程組,計算殘差和加性方差的方差組分,即可得到固定因子效應值 (BLUE)和隨機因子效應值 (BLUP)。

作為傳統BLUP方法,ABLUP完全基於系譜信息來構建親緣關系矩陣,進而求得育種值,此方法在早期動物育種中應用較多,現在已基本不單獨使用。

VanRaden於2008年提出了基於G矩陣的GBLUP(Genomic Best Linear unbiased prediction)方法,G矩陣由所有SNP標記構建,公式如下:

式中 p i 表示位點i的最小等位基因頻率,Z表示個體基因型矩陣。

GBLUP通過構建基因組關系矩陣G代替基於系譜信息構建的親緣關系矩陣A,進而直接估算個體育種值。

GBLUP求解過程同傳統BLUP方法,僅僅在G矩陣構建不同。除了VanRaden的基因組關系構建G矩陣外,還有其他G矩陣構建方法,但應用最多的還是VanRaden提出的方法。如Yang等提出的按權重計算G矩陣:

Goddard等提出的基於系譜A矩陣計算G矩陣:

目前GBLUP已經廣泛應用於動植物育種中,並且因為它的高效、穩健等優點,現在仍飽受青睞。GBLUP假設所有標記對G矩陣具有相同的效應,而在實際基因組範圍中只有少量標記具有主效應,大部分標記效應較小,因此GBLUP仍有很大的改進空間。

在動物育種中,由於各種各樣的原因導致大量具有系譜記錄和表型信息的個體沒有基因型,單步法GBLUP(single-step GBLUP,ssGBLUP)就是解決育種群體中無基因型個體和有基因型個體的基因組育種值估計問題。

ssGBLUP將傳統BLUP和GBLUP結合起來,即把基於系譜信息的親緣關系矩陣A和基因組關系矩陣G進行整合,建立新的關系矩陣H,達到同時估計有基因型和無基因型個體的育種值。

H矩陣構建方法:

式中 A、G 分別為A矩陣和G矩陣,下標1、2分別為無基因型個體和有基因型個體。由於G為奇異矩陣時無法求逆,VanRaden又提出將G定義為 G w = (1-w)G + wA 22 ,則H逆矩陣可轉化為:

式中w為加權因子,即多基因遺傳效應所占比例。

構建H矩陣後,其求解MME過程也是與傳統BLUP壹樣:

ssBLUP由於基因分型個體同時含有系譜記錄和表型數據,相對於GBLUP往往具有更高的準確性。該方法已成為當前動物育種中最常用的動物模型之壹。在植物育種中,往往缺乏較全面的系譜信息,群體中個體的基因型也容易被測定,因此沒有推廣開來。

如果把GBLUP中構建協變量的個體親緣關系矩陣換成SNP標記構成的關系矩陣,構建模型,然後對個體進行預測,這就是RRBLUP(Ridge Regression Best Linear Unbiased Prediction)的思路。

為什麽不直接用最小二乘法?最小二乘法將標記效應假定為 固定效應 ,分段對所有SNP進行回歸,然後將每段中顯著的SNP效應相加得到個體基因組育種值。該方法只考慮了少數顯著SNP的效應,很容易導致多重***線性和過擬合。

RRBLUP是壹種改良的最小二乘法,它能估計出所有SNP的效應值。該方法將標記效應假定為 隨機效應 且服從正態分布,利用線性混合模型估算每個標記的效應值,然後將每個標記效應相加即得到個體估計育種值。

壹般而言,基因型數據中標記數目遠大於樣本數(p>>n)。RRBLUP因為是以標記為單位進行計算的,其運行時間相比GBLUP更長,準確性相當。( PS :這個情況在各個國家慢慢改變,尤其美國,已經有超過4百萬牛的芯片數據,所以其可能是以後的發展方向之壹)

GBLUP是直接法的代表,它把個體作為隨機效應,參考群體和預測群體遺傳信息構建的親緣關系矩陣作為方差協方差矩陣,通過叠代法估計方差組分,進而求解混合模型獲取待預測個體的估計育種值。RRBLUP是間接法的代表,它首先計算每個標記效應值,再對效應值進行累加,進而求得育種值。下圖比較了兩類方法的異同:

直接法估計 ,間接法估計標記效應之和 M 。當K=M’M且標記效應g服從獨立正態分布(如上圖所示)時,兩種方法估計的育種值是壹樣的,即 = M

基於BLUP理論的基因組選擇方法假定所有標記都具有相同的遺傳方差,而實際上在全基因組範圍內只有少數SNP有效應,且與影響性狀的QTL連鎖,大多數SNP是無效應的。當我們將標記效應的方差假定為某種先驗分布時,模型變成了貝葉斯方法。常見的貝葉斯方法也是Meuwissen提出來的(就是提出GS的那個人),主要有BayesA、BayesB、BayesC、Bayesian Lasso等。

BayesA假設每個SNP都有效應且服從正態分布,效應方差服從尺度逆卡方分布。BayesA方法事先假定了兩個與遺傳相關的參數,自由度v和尺度參數S。它將Gibbs抽樣引入到馬爾科夫鏈蒙特卡洛理論(MCMC)中來計算標記效應。

BayesB假設少數SNP有效應,且效應方差服從服從逆卡方分布,大多數SNP無效應(符合全基因組實際情況)。BayesB方法的標記效應方差的先驗分布使用混合分布,難以構建標記效應和方差各自的完全條件後驗分布,因此BayesB使用Gibbs和MH(Metropolis-Hastings)抽樣對標記效應和方差進行聯合抽樣。

BayesB方法在運算過程中引入壹個參數π。假定標記效應方差為0的概率為π,服從逆卡方分布的概率為1-π,當π為1時,所有SNP都有效應,即和BayesA等價。當遺傳變異受少數具有較大影響的QTL控制時,BayesB方法準確性較高。

BayesB中的參數π是人為設定的,會對結果帶來主觀影響。BayesC、BayesCπ、BayesDπ等方法對BayesB進行了優化。BayesC方法將π作為未知參數,假定其服從U(0,1)的均勻分布,並假設有效應的SNP的效應方差不同。BayesCπ方法在BayesC的基礎上假設SNP效應方差相同,並用Gibbs抽樣進行求解。BayesDπ方法對未知參數π和尺度參數S進行計算,假設S的先驗分布和後驗分布均服從(1,1)分布,可直接從後驗分布中進行抽樣。

下圖較為形象地說明了不同方法的標記效應方差分布:

Bayesian Lasso(Least absolute shrinkage and selection operator)假設標記效應方差服從指數分布的正態分布,即拉普拉斯(Laplace)分布。其與BayesA的區別在於標記效應服從的分布不同,BayesA假設標記效應服從正態分布。Laplace分布可允許極大值或極小值以更大概率出現。

從以上各類貝葉斯方法可看出,貝葉斯方法的重點和難點在於如何對超參的先驗分布進行合理的假設。

Bayes模型相比於BLUP方法往往具有更多的待估參數,在提高預測準確度的同時帶來了更大的計算量。MCMC需要數萬次的叠代,每壹次叠代需要重估所有標記效應值,該過程連續且不可並行,需消耗大量的計算時間,限制了其在時效性需求較強的動植物育種實踐中的應用。

為提高運算速度和準確度,很多學者對Bayes方法中的先驗假設和參數進行優化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。但目前最常用的Bayes類方法還是上述的幾種。

各種模型的預測準確度較大程度的取決於其模型假設是否適合所預測表型的遺傳構建。壹般而言,調參後貝葉斯方法的準確性比BLUP類方法要略高,但運算速度和魯棒性不如BLUP。因此,我們應根據自身需求權衡利弊進行合理選擇。( PS :在動物育種中,實踐生產中使用的為BLUP方法)

除了基於BLUP和Bayes理論的參數求解方法外,基因組選擇還有半參數(如RKHS,見下篇)和非參數,如機器學習(Machine Learning, ML)等方法。機器學習是人工智能的壹個分支,其重點是通過將高度靈活的算法應用於觀察到的個體( 標記的數據 )的已知屬性( 特征 )和結果來預測未觀察到的個體( 未標記的數據 )的結果。結果可以是連續的,分類的或二元的。在動植物育種中, 標記的數據 對應於具有基因型和表型的訓練群體,而 未標記的數據 對應於測試群體,用於預測的 特征 是SNP基因型。

相比於傳統統計方法,機器學習方法具有諸多優點:

支持向量機(Support Vector Machine,SVM)是典型的非參數方法,屬於監督學習方法。它既可解決分類問題,又可用於回歸分析。SVM基於結構風險最小化原則,兼顧了模型擬合和訓練樣本的復雜性,尤其是當我們對自己的群體數據不夠了解時,SVM或許是基因組預測的備選方法。

SVM的基本思想是求解能夠正確劃分訓練數據集並且幾何間隔最大的分離超平面。在支持向量回歸(Support Vector Regression,SVR)中,通常使用近似誤差來代替像SVM中那樣的最佳分離超平面和支持向量之間的余量。假設ε為不敏感區域的線性損失函數,當測量值和預測值小於ε時,誤差等於零。SVR的目標就是同時最小化經驗風險和權重的平方範數。也就是說,通過最小化經驗風險來估計超平面。

下圖1比較了SVM中回歸(圖A)和分類(圖B)的差別。式中ξ和ξ*為松弛變量,C為用戶定義的常數,W為權重向量範數,?表示特征空間映射。

當SVM用於預測分析時,高維度的大型數據集會給計算帶來極大的復雜性,核函數的應用能大大簡化內積,從而解決維數災難。因此,核函數的選擇(需要考慮訓練樣本的分布特點)是SVM預測的關鍵。目前最常用的核函數有:線性核函數、高斯核函數(RBF)和多項式核函數等。其中, RBF具有廣泛的適應性,能夠應用於訓練樣本(具有適當寬度參數)的任何分布。盡管有時會導致過擬合問題,但它仍是使用最廣泛的核函數。

集成學習(Ensemble Learning)也是機器學習中最常見的算法之壹。它通過壹系列學習器進行學習,並使用某種規則把各個學習結果進行整合,從而獲得比單個學習器更好的效果。通俗地說,就是壹堆弱學習器組合成壹個強學習器。在GS領域,隨機森林(Random Forest,RF)和梯度提升機(Gradient Boosting Machine,GBM)是應用較多的兩種集成學習算法。

RF是壹種基於決策樹的集成方法,也就是包含了多個決策樹的分類器。在基因組預測中,RF同SVM壹樣,既可用做分類模型,也可用做回歸模型。用於分類時,註意需要事先將群體中個體按表型值的高低進行劃分。RF算法可分為以下幾個步驟:

最後,RF會結合分類樹或回歸樹的輸出進行預測。在分類中,通過計算投票數(通常使用每個決策樹壹票)並分配投票數最高的類別來預測未觀察到的類別。在回歸中,通過對ntree輸出進行求平均。

有兩個影響RF模型結果的重要因素:壹是每個節點隨機取樣的協變量數量(mtry,即SNP數目)。構建回歸樹時,mtry默認為p/3(p是構建樹的預測數量),構建分類樹時,mtry為[圖片上傳失敗...(image-10f518-1612450396027)] ;二是決策樹的數量。很多研究表明樹並非越多越好,而且構樹也是非常耗時的。在GS應用於植物育種中,通常將RF的ntree設置在500-1000之間。

當GBM基於決策樹時,就是梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),和RF壹樣,也是包含了多個決策樹。但兩者又有很多不同,最大的區別在於RF是基於bagging算法,也就是說它將多個結果進行投票或簡單計算均值選出最終結果。而GBDT是基於boosting算法,它通過叠代的每壹步構建弱學習器來彌補原模型的不足。GBM通過設置不同的損失函數來處理各類學習任務。

雖然已經有不少研究嘗試了將多種經典機器學習算法應用於基因組預測中,但提升的準確性仍然有限,而且比較耗時。在無數的機器學習算法中,沒有壹種方法能夠普遍地提高預測性,不同的應用程序及其最優方法和參數是不同的。相比於經典的機器學習算法,深度學習(Deep Learning,DL)或許是未來應用於基因組預測更好的選擇。

傳統的機器學習算法如SVM,壹般是淺層模型。而深度學習除了輸入和輸出層,還含有多個隱藏層,模型結構的深度說明了它名字的含義。DL的實質是通過構建具有很多隱藏層的機器學習模型和海量的訓練數據,來學習更有用的特征,從而最終提升分類或預測的準確性。DL算法的建模過程可簡單分為以下三步:

在GS領域,研究較多的DL算法,包括多層感知器(Multi-layer Perceptron,MPL)、卷積神經網絡(Convolutional neural network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)等。

MLP是壹種前饋人工神經網絡(Artificial Neural Network,ANN)模型,它將輸入的多個數據集映射到單壹的輸出數據集上。MLP包括至少壹個隱藏層,如下圖2中所示,除了壹個輸入層和壹個輸出層以外,還包括了4個隱藏層,每壹層都與前壹層的節點相連,並賦予不同權重(w),最後通過激活函數轉化,將輸入映射到輸出端。

CNN是壹類包含卷積計算且具有深度結構的前饋神經網絡,通常具有表征學習能力,能夠按其階層結構對輸入信息進行平移不變分類。CNN的隱藏層中包含卷積層(Convolutional layer)、池化層(Pooling layer)和全連接層(Fully-connected layer)三類,每壹類都有不同的功能,比如卷積層的功能主要是對輸入數據進行特征提取,池化層對卷積層特征提取後輸出的特征圖進行特征選擇和信息過濾,而全連接層類似於ANN中的隱藏層,壹般位於CNN隱藏層的最末端,並且只向全連接層傳遞信號。CNN結構如下圖3所示。

需要註意的是,深度學習不是萬能的。使用DL的前提是必須具有足夠大和質量好的訓練數據集,而且根據GS在動植物方面的研究表明,壹些DL算法和傳統的基因組預測方法相比,並沒有明顯的優勢。不過有壹致的證據表明, DL算法能更有效地捕獲非線性模式。因此,DL能夠根據不同來源的數據通過集成GS傳統模型來進行輔助育種。總之,面對將來海量的育種數據,DL的應用將顯得越來越重要。

以上是GS中常見的預測模型,不同分類方式可能會有所區別。這裏再簡單介紹壹下上述未提及到但比較重要的方法,其中壹些是上述三類方法的拓展。

再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)是壹種典型的半參數方法。它使用高斯核函數來擬合以下模型:

式中α是均值為0、協方差矩陣為 K h σ α 2 的多變量正態分布; ε ~ N(0,I n σ 2 ) ; K h 是代表個體相關性的核函數,等式中 d ij 是個體i和j根據基因型計算的歐氏距離的平方,平滑參數h定義為 d ij 均值的壹半。

RKHS模型可采用貝葉斯框架的Gibbs抽樣器,或者混合線性模型來求解。

GBLUP仍然是動植物育種中廣泛應用的方法,它假定所有標記都具有相同的效應。但在實際情況中,任何與目標性狀無關的標記用來估計親緣關系矩陣都會稀釋QTL的作用。很多研究對其進行改進,主要有幾種思路:

沿用以上的思路,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法將TABLUP進壹步細化為少數基因控制的性狀,這樣基因型關系矩陣的構建僅僅使用了與性狀關聯的標記。

如果要在親緣關系矩陣中考慮群體結構帶來的影響,可根據個體遺傳關系的相似性將其分組,然後將壓縮後的組別當做協變量,替換掉原來的個體,而組內個體的親緣關系都是壹樣的。因此在構建基因組關系矩陣時,可用組別的遺傳效應值來代替個體的值,用個體對應的組來進行預測,這就是cBLUP(Compressed BLUP)。

以上思路都提到了將已驗證和新發現的位點整合到模型中,這些位點從何而來?最常見來源自然是全基因組關聯分析(Genome Wide Association Study, GWAS)。GS和GWAS有著天然的聯系,將GWAS的顯著關聯位點考慮進GS中,直接的好處是能維持多世代的預測能力,間接的好處是能增加已驗證突變的數量。

下圖比較了GWAS輔助基因組預測的各類方法比較。a表示分子標記輔助選擇方法(MAS),只利用了少數幾個主效位點;b表示經典GS方法,利用了全部標記,且標記效應相同;c對標記按權重分配;d將顯著關聯標記視為固定效應;e將顯著關聯標記視為另壹個隨機效應(有其自身的kernel derived);f將染色體劃分為片段,每個片段構建的G矩陣分配為不同的隨機效應。

GWAS輔助基因組預測的結果會比較復雜,單純地考慮將關聯信號納入模型不壹定都能提高準確性,具體表現應該和性狀的遺傳構建有關。

GS對遺傳效應的估計有兩種不同的策略。壹是關註估計育種值,將加性效應從父母傳遞給子代。而非加性效應(如顯性和上位性效應)與特定基因型相關,不能直接遺傳。當估計方差組分時,非加性效應通常和隨機的環境效應壹起被當成噪音處理。另壹種策略同時關註加性和非加性效應,通常用於雜種優勢的探索。雜交優勢壹般認為是顯性和上位性效應的結果,因此,如果非加性效應很明顯,而妳恰好將它們忽略了,遺傳估計將會產生偏差。

雜種優勢利用是植物育種,尤其是水稻、玉米等主糧作物的重要研究課題。將非加性遺傳效應考慮進GS模型進行雜交種預測,也是當前基因組預測在作物育種中研究的熱點之壹。

當然,雜種優勢效應的組成也是隨性狀而變化的,不同性狀的基因組預測需要與鑒定雜優QTL位點結合起來。由於壹般配合力GCA(加性效應的反映)和特殊配合力SCA(非加性效應的反映)可能來自不同遺傳效應,所以預測雜交種F 1 應該分別考慮GCA和SCA。GCA模型可以基於GBLUP,重點在基因型親緣關系矩陣構建。SCA模型有兩種方法:壹是將雜優SNP位點的Panel作為固定效應整合進GBLUP模型中;二是使用非線性模型,如貝葉斯和機器學習方法。據報道,對於加性模型的中低遺傳力性狀,機器學習和壹般統計模型比較壹致。但在非加性模型中,機器學習方法表現更優。

傳統的GS模型往往只針對單個環境中的單個表型性狀,忽略了實際情況中多性狀間或多環境間的相互關系。壹些研究通過對多個性狀或多個環境同時進行建模,也能提高基因組預測的準確性。以多性狀(Multi-trait,MT)模型為例,多變量模型(Multivariate model,MV)可用如下公式表示:

式中 y = [y 1 T ,y 2 T ,…,y s T ] T ; b = [b 1 T ,b 2 T ,…,b s T ] T ; a = [a 1 T ,a 2 T ,…,a s T ] T ; ε = [ε 1 T ,ε 2 T ,…,ε s T ] T ,s表示s個性狀。非遺傳效應b作為固定效應,加性效應a和殘差ε作為隨機效應,並服從多變量正態分布: a ~ N(0,G a0 ? Gσ a 2 ) ,ε ~ N(0,R ε ? I m σ ε 2 ) ,其中G為G矩陣,?為克羅內克矩陣乘積,m為表型觀測值數,I m 為m×m單位矩陣,X和Z a 分別為固定效應和隨機加性效應關聯矩陣。G a0 和R ε 的加性效應協方差矩陣可表示為:

式中σ ai 2 和 σ εi 2 分別是第i個性狀的加性和殘余方差。ρ aij 和ρ ij 分別是第i與j性狀相關性的加性和殘余方差。

多性狀選擇壹般用於性狀間***有某種程度的遺傳構建,即在遺傳上是相關的。尤其適用於對低遺傳力性狀(伴隨高遺傳力性狀相關)或者難以測量的性狀。

農作物的環境條件不如動物容易控制,而且大部分性狀都是數量性狀,很容易受到環境影響。多環境(Multi-environment,ME)試驗發揮了重要作用,基因型與環境互作(Genotype by E nvironment,G × E)效應也是當前基因組選擇關註的焦點。

除了GBLUP,多變量模型也可基於貝葉斯框架的線性回歸,或者基於非線性的機器學習方法。

我們知道,基因經過轉錄翻譯以及壹系列調控後才能最終體現在表型特征上,它只能在壹定程度上反映表型事件發生的潛力。隨著多組學技術的發展,整合多組學數據用於基因組預測也是目前GS研究的壹個重要方向。

在植物育種中,除基因組外,轉錄組學和代謝組學是當前GS研究相對較多的兩個組學。轉錄組將基因表達量與性狀進行關聯預測,代謝組則將調控表型的小分子含量與性狀進行關聯預測,對於某些特定的性狀而言,可能會提高預測能力。最好的方法是將各個組學的數據***同整合進模型,但這樣會大大增加模型的復雜度。

表型測定的準確性直接影響模型的構建。對於壹些復雜性狀,單憑肉眼觀察記錄顯然已不可取,而且表型調查費時費力,成本很高。因此,高通量表型組也是GS發展的重要方向。表型的範疇非常之廣,當個體性狀不可簡單測量時,我們也可采用多組學數據,如蛋白組、代謝組等數據來替代。

考慮到成本效益問題,多組學技術在動植物育種中仍處於研究階段,但代表了未來的應用方向。

  • 上一篇:陶《景宜篇》家風家訓_名句_經典語錄
  • 下一篇:六安有哪些美食小吃?
  • copyright 2024吉日网官网