最大似然估計,本質就是以現有樣本為基礎分析,然後求出最大可能出現這種結果的總體參數值。
有了這個參數值,就有這批樣本整個規律的體現了。就是說當樣本數據復雜的時候,點估計(壹個點),最小二乘(多個點)的情況並不能有效統計了,最大似然則找出最適參數展現這些數據的特性。
貝葉斯(Bayes) 估計是基於先驗信息的壹種估計方法,也就是說,根據已有的壹些經驗(規律),把經驗納入估計過程中,從而得到估計值。在經典的頻率統計中,參數是固定的,樣本統計量是隨機變量。而在貝葉斯統計中,認為參數也是隨機變量,服從某壹概率分布的隨機變量,貝葉斯統計的重點是研究參數的分布。
由研究樣本與參數的關系到研究參數的分布,這就是點估計到貝葉斯估計的轉變。
某市男性司機和女性司機各自占的比例為60%和40%。現在發生了壹起車禍,某位司機把壹堵墻撞倒了,沒有發生人員傷亡。我們想了解壹下,這位撞墻的司機可能是男性還是女性。
在這裏,往往我們會考慮兩個問題:第壹男女司機的比例,第二是男女司機撞墻的可能性。
這兩點就是已有經驗!
思考過程:
(1)如果我們沒有任何數據,只有該市男女司機的比例,那麽我們會推測,撞墻的司機有60%的可能是男性(畢竟男性司機更多) 。
(2)但我們又獲得了另壹組數據,即男性司機撞墻的可能性為1%, 女性司機撞墻的可能性為5% 。那麽在這種情況下,我們如何來判斷呢?
(3)我們可以計算出:男性司機撞墻的概率是60% x 1%=0.6%, 女性司機撞墻的概率是40% x 5%=2%。此時撞墻為男性司機的可能性為0.6%/(0.6%+2%)=23%, 撞墻為女性司機的可能性為2%/(0.6%+2%)=77%, 也就是說,發生這起撞墻事故的更有可能是女性司機。
(4)這裏的先驗是很重要的,如果本例中已知男女司機比例不是60%和40%, 而是90%和10%, 那麽最終計算的男性司機撞墻的概率就不是0.6%, 而是0.9%; 同樣,女性司機撞墻的概率也不是2%, 而是0.5%。這樣壹來,這起撞墻事故就很可能是由男性司機造成的。
已知某疾病的患病率為1%, 某研究者發現壹個診斷指標,該診斷指標的靈敏度和特異度均為95% 。
也就是說,如果壹個人患病,則有95%的概率能夠正確診斷其患病;如果壹個人沒有患病,則有95% 的概率能夠正確診斷其為非患者(反過來就是說,如果壹個人沒有患病,則有5%的可能性將其誤診為患病)。我們來分析壹下該診斷指標是否值得在臨床上推廣。
分析過程:
(1)甲患病且診斷為患病的概率為 1% X 95% = 0.95%
(2)乙沒有患病且診斷為患病的概率為 99% X 5% = 4.95%
(3)正確診斷為患病的概率0.95%/(0.95%+4.95%)=16.1%
在患病的診斷例子中,正確診斷患病的概率是16.1%,其實,這個概率並不高。
為什麽會這樣呢?
原因就是該病的患病率太低,多數人是不患病的。在這種情況下,盡管只有5%的誤診率,但考慮到不患病人數巨大, 5%的誤診率足己造成很高的假陽性。由千患病率很低,如果該診斷指標想進壹步提高正確診斷的性能,則應該在提高特異度上下功夫( 特異度95%還是太低啊 )。
特點:首先要了解壹定的先驗,然後收集樣本數據,根據樣本數據的結果再進行調整,重新計算得到所謂的後驗信息。
貝葉斯公式壹般可以表示為:
式中P(BIA)表示在A 成立的條件下, B 的發生概率。我們把公式中的A和B替換壹下,改為更通俗易懂的形式:
傳統的概率分布壹般是正向概率,如某病的患病率是1%,如果隨機抽取壹個人,那麽此人患該病的概率有多大。而貝葉斯估計基於逆向概率,如在診斷疾病的例子中,人被該診斷指標診斷為患病,反推他真正患病的概率有多大;在司機撞墻時間中,如果壹位司機被發現撞倒了墻,反推他是男性司機的概率有多大。
厲害!厲害!厲害!
(1)已有的先驗或規律是男性司機占60%, 現象是撞墻,男性司機撞墻的可能性為1%, 女性司機撞墻的可能性是5%, 同時考慮到男性和女性,則整個撞墻現象出現的概率就是1%x60%+5%x40%=2.6% 。根據這些數據,估計撞墻為男性司機的可能性為:
(2)已有的先驗或規律是患病率為1%, 現象是診斷患病,患病者被診斷為患病的可能性為95%, 未患病者被診斷為患病的可能性是5%, 則整個診斷為患病現象出現的概率就是95% x 1%+5%x99%=5.9% 。根據這些數據,估計診斷為患病的人是患者的可能性為: