當前位置:吉日网官网 - 傳統節日 - 數據挖掘十大經典算法中的樸素貝葉斯

數據挖掘十大經典算法中的樸素貝葉斯

樸素貝葉斯,這是壹個簡單但極其強大的預測建模算法。它被稱為樸素貝葉斯,因為它假設每個輸入變量都是獨立的。* *這個假設很硬,在現實生活中根本不滿足,但是這個技術對於大多數復雜問題還是很有效的。

貝葉斯原理、貝葉斯分類和樸素貝葉斯是有區別的。

貝葉斯原理是最大的概念,解決了概率論中的“逆概率”問題。在這個理論的基礎上,人們設計了貝葉斯分類器。樸素貝葉斯分類器是貝葉斯分類器的壹種,也是最簡單、最常用的分類器。樸素貝葉斯之所以樸素,是因為它假設屬性是相互獨立的,所以對實際情況有約束。* *如果屬性之間存在相關性,分類精度會降低。* *好在大多數情況下,樸素貝葉斯的分類效果還是不錯的。

樸素貝葉斯分類器依賴於精確的自然概率模型,在監督學習樣本集中可以達到非常好的分類效果。在許多實際應用中,樸素貝葉斯模型的參數估計采用最大似然估計方法,換句話說,樸素貝葉斯模型可以在沒有貝葉斯概率或任何貝葉斯模型的情況下工作。

樸素貝葉斯分類常用於文本分類,特別是對於英語等語言,分類效果非常好。它常用於垃圾郵件過濾、情感預測、推薦系統等。

1,需要知道先驗概率?

先驗概率是計算後驗概率的基礎。傳統概率論中,先驗概率可以通過大量重復實驗得到的各種樣本的頻率來近似得到,其依據是“大數定律”,即所謂的“頻率主義”。在被稱為“貝葉斯”的數理統計學派中,他們認為時間是單向的,很多事件是不可重復的,所以先驗概率只能根據置信度的主觀判斷給出,或者可以說是由“信念”決定的。?

2.根據得到的信息修正先驗概率?

在沒有獲得任何信息的情況下,如果要分類判斷,只能根據每壹類的先驗概率將樣本劃分到壹個先驗概率高的類中。在獲得更多的樣本特征信息後,可以根據貝葉斯公式對先驗概率進行修正,得到後驗概率,從而提高分類決策的準確性和置信度。?

3.分類決策是否存在錯誤率?

因為貝葉斯分類是猜測樣本在獲得某個特征值時屬於各個類別的概率,無法得到樣本的真實類別歸屬,所以分類決策中必然存在錯誤率,即使錯誤率很低,也可能出現分類錯誤。?

第壹階段:準備階段

在這個階段,我們需要確定特征屬性,並明確預測值是什麽。並對每個特征屬性進行適當劃分,然後對壹部分數據進行人工分類,形成訓練樣本。

第二階段:訓練階段

這個階段是生成分類器。主要任務是計算每個類別在訓練樣本中的出現頻率,以及每個類別的每個特征屬性劃分的條件概率。

第三階段:申請階段

在此階段,分類器用於對新數據進行分類。

優勢:

(1)樸素貝葉斯模型源於經典數學理論,具有穩定的分類效率。

(2)在小規模數據上表現良好,可以處理多分類任務,適合增量訓練,特別是當數據量超過內存時,我們可以批量做增量訓練。

(3)對缺失數據不敏感,算法相對簡單,常用於文本分類。

缺點:

(1)理論上,與其他分類方法相比,樸素貝葉斯模型的錯誤率最小。但實際上並不總是這樣,因為樸素貝葉斯模型在輸出類別給定的情況下假設屬性相互獨立,而實際應用中往往不成立。當屬性數量較多或者屬性之間的相關性較大時,分類效果不好。然而,當屬性相關性較小時,樸素貝葉斯的性能最好。對於這壹點,有壹些算法如半樸素貝葉斯可以通過考慮偏相關進行適度的改進。

(2)我們需要知道先驗概率,而先驗概率往往取決於假設,假設模型很多,所以在某些時候預測效果會因為假設先驗模型而較差。

(3)由於我們是通過先驗和數據來決定後驗概率和分類的,所以在分類決策上存在壹定的錯誤率。

(4)對輸入數據的表達敏感。

參考:

/Qiu _ zhi _ Liao/文章/詳情/90671932

/u 011067360/article/details/24368085

  • 上一篇:惠州,壹棟破舊的居民樓,被拆除,搬到美國,耗資近6543.8億人民幣。
  • 下一篇:有沒有壹些英雄的故事?
  • copyright 2024吉日网官网