當前位置:吉日网官网 - 傳統節日 - 信息生物學?

信息生物學?

生物信息學(BT)

中文名:生物信息學英文名:bioinformatics

定義1:融合計算機科學、信息技術、數學的理論和方法,研究生物信息的交叉學科。包括生物數據研究、存檔、顯示、處理和模擬、遺傳和物理圖譜處理、核苷酸和氨基酸序列分析、新基因發現和蛋白質結構預測。

學科:生物化學與分子生物學(壹級學科);概論(兩個學科)

定義2:利用計算機技術和信息技術開發新的算法和統計方法,分析生物學實驗數據,確定數據中所包含的生物學意義,開發新的數據分析工具,實現各種信息的獲取和管理的學科。

學科:細胞生物學(壹級學科);概論(兩個學科)

定義三:利用計算機技術和信息技術開發新的算法和統計方法,分析生物學實驗數據,確定數據中所包含的生物學意義,開發新的數據分析工具,實現各種信息的獲取和管理的學科。

學科:遺傳學(壹級學科);總論(二級學科)本內容由國家科學技術術語審定委員會批準出版。

生物信息學是壹門研究生物信息的收集、處理、存儲、傳播、分析和解釋的學科。它綜合運用生物學、計算機科學和信息技術,揭示了大量復雜生物數據賦予的生物奧秘。

主要研究方向

生物信息學在短短十幾年的時間裏形成了很多研究方向。下面簡單介紹壹些主要的研究熱點。

1,序列比對

序列比對的基本問題是比較兩個或多個符號序列的相似性或不相似性。從生物學的本意來說,這個問題包含以下含義:從重疊的序列片段中重建DNA的完整序列;從各種實驗條件下的探針數據確定物理和遺傳圖譜存儲,遍歷和比較數據庫中的DNA序列,比較兩個或兩個以上序列的相似性,在數據庫中搜索相關序列和子序列,找出核苷酸的連續生成模式,找出蛋白質和DNA序列中的信息成分,比較DNA序列的生物學特征,如局部插入、缺失(前兩者簡稱為indel)和置換。序列的目標函數獲得序列間變異集的最小距離加權和或最大相似和。對齊的方法包括全局對齊、局部對齊、代溝懲罰等。動態規劃算法常用於比較兩個序列,適用於序列長度較小的情況,但不適用於海量基因序列(如人類DNA序列高達109bp),甚至算法復雜度是線性的。因此,啟發式方法很難奏效。

2.蛋白質結構的比較和預測。

基本問題是比較兩個或多個蛋白質分子空間結構的相似性或不相似性。蛋白質的結構和功能密切相關。壹般認為,功能相似的蛋白質,結構壹般是相似的。蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(氨基酸)不等。蛋白質有很多功能,如酶、物質的儲存和運輸、信號傳遞等。抗體等。氨基酸的序列內在地決定了蛋白質的三維結構。壹般認為蛋白質有四種不同的結構。研究蛋白質的結構和預測的原因是:在醫學上了解生物體的功能,尋找對接藥物的目標,在農業上獲得更好的農作物基因工程。酶促合成用於工業。直接比較蛋白質結構的原因是蛋白質的三維結構在進化中比壹級結構更穩定,也比AA序列包含更多的信息。蛋白質三維結構研究的前提是內部氨基酸序列與三維結構壹壹對應(不壹定成立)。物理學可以用最小能量來解釋。通過觀察和總結已知結構的蛋白質結構規律來預測未知蛋白質的結構。同源建模和線程化都屬於這壹類。同源性建模用於尋找相似度高的蛋白質結構(30%以上氨基酸相同),後者用於比較進化家族中不同的蛋白質結構。然而,蛋白質結構預測的研究現狀遠不能滿足實際需要。

3.基因識別的非編碼區分析。

基因識別的基本問題是正確識別基因在給定基因組序列中的範圍和確切位置。非編碼區由內含子組成,通常在蛋白質形成後被丟棄,但從實驗來看,如果去掉非編碼區,基因復制就無法完成。顯然,DNA序列作為壹種遺傳語言,不僅包含在編碼區,它還隱含在非編碼序列中。目前沒有分析非編碼區DNA序列的通用指導方法。在人類基因組中,並不是所有的序列都被編碼,也就是某種蛋白質模板,編碼的部分只占人類基因總序列的3-5%。顯然,人工搜索這麽大的基因序列是不可想象的。檢測密碼區的方法包括測量密碼區中密碼子的頻率。壹階和二階馬爾可夫鏈,ORF(開放閱讀框),啟動子識別,HMM(隱馬爾可夫模型)和GENSCAN,剪接比對等等。

4.分子進化和比較基因組學

分子進化是利用不同物種中相同基因序列的異同來研究生物的進化,構建進化樹。既可以利用DNA序列,也可以利用其編碼的氨基酸序列,甚至可以通過相關蛋白質的結構比較,在相似人種遺傳相似的前提下完成。通過對比,可以發現不同種族中哪些是相同的。有什麽區別?早期的研究方法通常使用外部因素,如大小、膚色和四肢數量,作為進化的基礎。近年來,隨著許多模式生物基因組測序任務的完成,人們可以從全基因組的角度研究分子進化。在匹配不同種族的基因時,壹般要處理三種情況:直向同源:功能相同的不同種族的基因;旁系同源:功能不同的同種族基因;異種基因:通過其他方式在生物之間傳播的基因,如病毒註射的基因。該領域常用的方法是構建系統發育樹,通過基於特征(即氨基酸堿基在DNA序列或蛋白質中的具體位置)和距離(比對得分)的方法以及壹些傳統的聚類方法(如UPGMA)來實現。

5、序列重疊群組裝

根據目前的測序技術,每次反應只能檢測500個或更多的堿基對。比如短槍法用於測量人類基因,需要大量的短序列全部形成重疊群。逐漸拼接它們以形成更長的重疊群直到獲得完整序列的過程被稱為重疊群組裝。從算法層面來看,序列的重疊群是壹個NP完全問題。

6、遺傳密碼的起源

壹般來說,對遺傳密碼的研究認為密碼子和氨基酸的關系是由生物進化史上的壹個偶然事件引起的,壹直固定在現代生物的同壹個祖先身上,直到現在。與這種“冷凍”理論不同的是,有人提出了三種解釋遺傳密碼的理論,即選擇優化、化學和歷史。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真實性提供了新的材料。

7.基於結構的藥物設計

人類基因工程的目的之壹是了解人體內約654.38+百萬種蛋白質的結構、功能、相互作用及其與人類各種疾病的關系,尋求包括藥物治療在內的各種治療和預防方法。基於生物大分子和小分子結構的藥物設計是生物信息學中壹個極其重要的研究領域。為了抑制某些酶或蛋白質的活性,基於已知的蛋白質三級結構,可以利用分子排列算法在計算機上設計抑制劑分子作為候選藥物。這個領域的目的是發現新的基因藥物,有很大的經濟效益。

8.生物系統的建模與仿真

隨著大規模實驗技術的發展和數據積累,從全局和系統層面研究和分析生物系統,揭示其發展規律,已成為後基因組時代的又壹研究熱點——系統生物學。目前其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70)、系統穩定性分析(非線性動力學心理生活Sci,2007,413-33)和系統魯棒性分析(Ernst Schering Res Found Workshop,2007,69-83)。以SBML為代表的建模語言(生物信息學,2007,1297-8)發展迅速,布爾網絡(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統(生物信息學,2007,336-43)已經出現許多模型是借鑒電路等物理系統的建模方法建立的,許多研究試圖從信息流、熵、能流等宏觀分析思路來解決系統的復雜性(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長的時間。盡管實驗觀測數據在大量增加,但生物系統模型辨識所需的數據遠遠超過了當前數據的輸出能力。比如對於時間序列的芯片數據,采樣點數不足以使用傳統的時間序列建模方法,龐大的實驗成本是目前系統建模的主要難點。系統描述和建模方法也需要開拓性的開發。

9.生物信息學技術和方法研究

生物信息學不僅僅是生物學知識的簡單排列和數學、物理、信息科學等學科知識的簡單應用。海量的數據和復雜的背景導致機器學習、統壹的數據分析和系統描述在生物信息學背景下快速發展。巨大的計算量、復雜的噪聲模式和海量的時變數據給傳統的統計分析帶來了巨大的困難,這就需要更加靈活的數據分析技術,如非參數統計(BMC Bioinformatics,2007,339)和聚類分析(Qual Life Res,2007,1655-63)。高維數據的分析需要偏最小二乘(PLS)等特征空間的壓縮技術。在計算機算法的開發中,需要充分考慮算法的時間和空間復雜度,利用並行計算、網格計算等技術擴展算法的可實現性。

10,生物圖像

為什麽沒有血緣關系的人長得這麽像?外貌是由點組成的。重疊的點越多,看起來就越像。為什麽這兩個不相關的點會重疊?生物學基礎是什麽?基因相似嗎?不知道,希望專家解答。

11,其他

如基因表達譜分析和代謝網絡分析;基因芯片設計和蛋白質組學數據分析逐漸成為生物信息學中新的重要研究領域。在學科方面,由生物信息學衍生出來的學科,包括結構基因組學、功能基因組學、比較基因組學、蛋白質的研究、藥物基因組學、中藥基因組學、腫瘤組學、分子流行病學和環境基因組學,已經成為系統生物學的重要研究方法。從目前的發展不難看出,基因工程已經進入後基因組時代。對於如何應對與生物信息學密切相關的機器學習和數學中可能出現的誤導,我們也有了清晰的認識。

編輯本段生物信息學和機器學習

大規模的生物信息給數據挖掘帶來了新的問題和挑戰,需要新的思路加入。傳統的計算機算法仍然可以應用於生物數據分析,但它們越來越不適合序列分析。原因是生物系統本來就模型復雜,缺乏在分子水平上建立的完整的生命組織理論。西蒙曾將學習定義為系統的變化,在做同樣的工作時,能使系統更有效。機器學習的目的是從數據中自動獲取相應的理論。通過采用推理、模型擬合、樣本學習等方法,特別適用於缺乏通用理論、“噪聲”模式和大規模數據集。因此,機器學習形成了壹種與常規方法互補的可行方法。機器學習使得利用計算機從海量生物信息中提取有用的知識,發現知識成為可能。多向量數據分析發揮著越來越重要的作用,但目前大量的基因數據庫處理需要計算機自動識別和標註,以避免耗時耗力的人工處理方法。早期的科學方法——觀察和假設——已經不能單純依靠人的感知來處理高數據量、快數據采集速率和客觀分析的要求。因此,生物信息學與機器學習的結合是必然的。機器學習中最基本的理論框架是基於概率的。從某種意義上說,它是統計模型擬合的延續,其目的是提取有用的信息。機器學習與模式識別和統計推理密切相關。學習方法包括數據聚類。神經網絡分類器和非線性回歸等。隱馬爾可夫模型也被廣泛用於預測DNA的遺傳結構。目前研究重點包括:1)觀察和探索有趣的現象。目前ML研究的重點是如何可視化和挖掘高維向量數據。壹般的方法是將其降維到低維空間,如常規的主成分分析(PCA)和核主成分分析(KPCA)。獨立分量分析,局部線性嵌入。2)產生假說和形式模型來解釋現象[6]。大多數聚類方法可以看作是將向量數據擬合到某種簡單分布的混合。聚類方法已經用於生物信息學中的微陣列數據分析。在癌癥類型分類等方向,也使用機器學習從基因數據庫中獲取相應的現象解釋。機器學習加速了生物信息學的進步,也帶來了相應的問題。大多數機器學習方法假設數據符合相對固定的模型,而壹般的數據結構通常是可變的,尤其是在生物信息學中。因此,有必要建立壹套不依賴於假設數據結構的通用方法來尋找數據集的內部結構。其次,機器學習方法往往采用“黑箱”操作,如神經網絡、隱馬爾可夫模型等,獲得具體解的內在機制尚不清楚。

  • 上一篇:體育單招和高水平運動隊區別在哪?
  • 下一篇:兔子代表什麽星座?
  • copyright 2024吉日网官网