基因表達( gene expression)** 是指將來自基因的遺傳信息合成功能性基因產物的過程。
基因表達產物通常是蛋白質,但是非蛋白質編碼基因如轉移RNA(tRNA)或小核RNA(snRNA)基因的表達產物是功能性RNA。
所有已知的生命,無論是真核生物(包括多細胞生物)、原核生物(細菌和古細菌)或病毒,都利用基因表達來合成生命的大分子。
基因編碼並可用於合成蛋白質,這個過程稱為基因表達。
在像人類這樣的高等生物中,根據細胞類型(神經細胞或心臟細胞)、環境和疾病狀況等各種因素,數以千計的基因以不同的量壹起表達。
例如,不同類型的癌癥在人類中引起不同的基因表達模式。可以使用微陣列( Microarray )技術研究不同條件下的這些不同基因的表達模式。
來自微陣列的數據可以想象為矩陣或網格,矩陣中的每個單元格對應於特定條件下的基因表達值。
如下圖所示,矩陣的每壹行對應壹個基因 g i ,每壹列對應壹個條件/樣本 s i
分析基因表達數據的第壹步是 在經典數據挖掘中對基因或樣本進行聚類 。
可以根據基因在所有條件下的表達模式對基因進行聚類,並且可以使用所有基因的基因表達模式對樣本進行聚類。
關於聚類問題
對於基因聚類 ,數據點是基因,特征是所有樣本的表達值。
因此,在針對癌癥示例的基因聚類中,將聚類 20,000 個數據點( data-points ),每個點具有 20 個維度。
聚類基因表達數據提供了對基因***調控(co-regulation)和基因細胞功能的重要見解。
聚集在壹起的基因在所有樣本中具有相似的表達模式,這可能表明這些基因的***同調控。
此外,來自同壹簇的基因可能執行類似的細胞功能,這有助於註釋新發現的基因。
相反,對於樣本聚類 ,樣本是使用跨所有基因的基因表達量作為特征進行聚類的數據點。由此將聚類 20 個數據點,每個點具有 20,000 個維度。
下面,我們將討論執行聚類的不同方法
鄰近計算( Proximity calculation)**
用於聚類的數據點之間的距離或接近度很重要,因為所有聚類算法的工作原理都是將近點聚集在壹個聚類中。
使用 Pearson 相關系數中的特征計算數據點 O i 和 O j 之間距離的有效措施之壹:
Pearson( , ) =
k均值聚類算法( k-means clustering algorithm)**
是壹種叠代求解的聚類分析算法。屬於無監督學習算法。
步驟:
預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
聚類中心以及分配給它們的對象就代表壹個聚類。每分配壹個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。 這個過程將不斷重復直到滿足某個終止條件 。
以下是壹個二維數據。通過查看散點圖,數據似乎包含 3 個不同的聚類。
因此,我們將任意發起 3 個聚類質心( cluster centroids )或聚類中心( cluster centers )。由於我們還沒有任何聚類,這些質心( centroids )是空間中的任意點。
然後,我們計算所有點與 3 個質心的距離,並將這些點分配到它們最近的聚類。然後,我們使用聚類中分配的點重新計算質心。
聚類中心只是聚類中所有點的平均值。
重新計算點與 3 個新分配的質心的距離,並將這些點重新分配到它們最近的聚類。
在點被重新分配到它們最近的聚類後,重新計算聚類中心。
重復上述步驟直到中心點收斂( convergence ),基本上不在發生變化或滿足精度為止。
層次聚類( Hierarchical Clustering)**
是壹種漸進式聚類技術,它從小簇開始,逐漸將密切相關的小簇合並成更大的簇, 直到只剩下壹個大簇為止 。
相對於 K-means 的最大優勢之壹是層次聚類不必預先定義聚類的數量。相反,可以在聚類過程完成後推斷最佳聚類數。
使用以下包含 25 個數據點的二維數據仔細研究層次聚類算法
叠代 1
再次計算所有的質心距離,並檢測最近的兩個簇並將其連接到壹個新簇中。重新計算新簇的質心。
叠代 2
重復3個步驟,計算所有的質心距離,合並2個最近的簇,重新計算新形成的簇的質心,直到只得到壹個包含所有25個數據點的大簇(收斂)。
動圖展示
[圖片上傳失敗...(image-79b9d0-1638339563655)]
整個層次聚類過程可以使用如下所示的樹狀圖進行可視化,其中分叉樹的葉節點是數據點,內部節點顯示執行的每個合並步驟。
左側的高度比例顯示了聚類合並的 距離
最低的內部節點距離很小 ,表明最近的簇或點首先被合並。
最高的內部節點距離很遠 ,表示相距很遠的點或簇以最高距離連接到壹個簇中。
實際的聚類解決方案是通過在指定距離截止點處跨聚類樹狀圖繪制壹條水平線來獲得的。
簇數等於水平切割線遇到的交點數。
例如,在距離截止值( distance cutoff )=60 處繪制的紅色水平線為 25 個數據點定義了 3 個clusters。
壹個例子顯示了通過基因表達數據的層次聚類識別的不同類型的彌漫型B大細胞淋巴瘤( diffuse large B-cell lymphoma )。
根據確定的不同類型,我們對癌癥預期如何發展的估計會有所不同,並且還可能導致處方治療的差異。