統計學（40）-貝葉斯估計

最大似然估計，本質就是以現有樣本為基礎分析，然後求出最大可能出現這種結果的總體參數值。

有了這個參數值，就有這批樣本整個規律的體現了。就是說當樣本數據復雜的時候，點估計（壹個點），最小二乘（多個點）的情況並不能有效統計了，最大似然則找出最適參數展現這些數據的特性。

貝葉斯(Bayes) 估計是基於先驗信息的壹種估計方法，也就是說，根據已有的壹些經驗（規律），把經驗納入估計過程中，從而得到估計值。在經典的頻率統計中，參數是固定的，樣本統計量是隨機變量。而在貝葉斯統計中，認為參數也是隨機變量，服從某壹概率分布的隨機變量，貝葉斯統計的重點是研究參數的分布。

由研究樣本與參數的關系到研究參數的分布，這就是點估計到貝葉斯估計的轉變。

某市男性司機和女性司機各自占的比例為60%和40%。現在發生了壹起車禍，某位司機把壹堵墻撞倒了，沒有發生人員傷亡。我們想了解壹下，這位撞墻的司機可能是男性還是女性。

在這裏，往往我們會考慮兩個問題：第壹男女司機的比例，第二是男女司機撞墻的可能性。

這兩點就是已有經驗！

思考過程：

（1）如果我們沒有任何數據，只有該市男女司機的比例，那麽我們會推測，撞墻的司機有60%的可能是男性（畢竟男性司機更多）。

（2）但我們又獲得了另壹組數據，即男性司機撞墻的可能性為1%, 女性司機撞墻的可能性為5% 。那麽在這種情況下，我們如何來判斷呢？

（3）我們可以計算出：男性司機撞墻的概率是60% x 1%=0.6%, 女性司機撞墻的概率是40% x 5%=2%。此時撞墻為男性司機的可能性為0.6%/(0.6%+2%)=23%, 撞墻為女性司機的可能性為2%/(0.6%+2%)=77%, 也就是說，發生這起撞墻事故的更有可能是女性司機。

（4）這裏的先驗是很重要的，如果本例中已知男女司機比例不是60%和40%, 而是90%和10%, 那麽最終計算的男性司機撞墻的概率就不是0.6%, 而是0.9%; 同樣，女性司機撞墻的概率也不是2%, 而是0.5%。這樣壹來，這起撞墻事故就很可能是由男性司機造成的。

已知某疾病的患病率為1%, 某研究者發現壹個診斷指標，該診斷指標的靈敏度和特異度均為95% 。

也就是說，如果壹個人患病，則有95%的概率能夠正確診斷其患病；如果壹個人沒有患病，則有95% 的概率能夠正確診斷其為非患者（反過來就是說，如果壹個人沒有患病，則有5%的可能性將其誤診為患病）。我們來分析壹下該診斷指標是否值得在臨床上推廣。

分析過程：

（1）甲患病且診斷為患病的概率為 1% X 95% = 0.95%

（2）乙沒有患病且診斷為患病的概率為 99% X 5% = 4.95%

（3）正確診斷為患病的概率0.95%/（0.95%+4.95%）=16.1%

在患病的診斷例子中，正確診斷患病的概率是16.1%，其實，這個概率並不高。

為什麽會這樣呢？

原因就是該病的患病率太低，多數人是不患病的。在這種情況下，盡管只有5%的誤診率，但考慮到不患病人數巨大， 5%的誤診率足己造成很高的假陽性。由千患病率很低，如果該診斷指標想進壹步提高正確診斷的性能，則應該在提高特異度上下功夫（ 特異度95%還是太低啊 ）。

特點：首先要了解壹定的先驗，然後收集樣本數據，根據樣本數據的結果再進行調整，重新計算得到所謂的後驗信息。

貝葉斯公式壹般可以表示為：

式中P(BIA)表示在A 成立的條件下， B 的發生概率。我們把公式中的A和B替換壹下，改為更通俗易懂的形式：

傳統的概率分布壹般是正向概率，如某病的患病率是1%，如果隨機抽取壹個人，那麽此人患該病的概率有多大。而貝葉斯估計基於逆向概率，如在診斷疾病的例子中，人被該診斷指標診斷為患病，反推他真正患病的概率有多大；在司機撞墻時間中，如果壹位司機被發現撞倒了墻，反推他是男性司機的概率有多大。

厲害！厲害！厲害！

（1）已有的先驗或規律是男性司機占60%, 現象是撞墻，男性司機撞墻的可能性為1%, 女性司機撞墻的可能性是5%, 同時考慮到男性和女性，則整個撞墻現象出現的概率就是1%x60%+5%x40%=2.6% 。根據這些數據，估計撞墻為男性司機的可能性為：

（2）已有的先驗或規律是患病率為1%, 現象是診斷患病，患病者被診斷為患病的可能性為95%, 未患病者被診斷為患病的可能性是5%, 則整個診斷為患病現象出現的概率就是95% x 1%+5%x99%=5.9% 。根據這些數據，估計診斷為患病的人是患者的可能性為：