國際權威學術組織IEEE數據挖掘國際會議(ICDM)評選出了數據挖掘領域的十大經典算法:C4.5、K-means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、樸素貝葉斯、Cart。
不僅是前十的算法,參與評選的18算法,其實任何壹個都可以稱得上是經典算法,在數據挖掘領域產生了深遠的影響。今天主要分享10經典算法,內容比較幹貨,建議收藏起來以後學習。
1.C4.5
C4.5算法是機器學習算法中的分類決策樹算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優點,在以下幾個方面對ID3算法進行了改進:
1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時選擇值較多的屬性的缺點。
2)建樹過程中的修剪;
3)可以完成連續屬性的離散化;
4)能夠處理不完整的數據。
C4.5算法有以下優點:生成的分類規則易於理解,準確率高。它的缺點是在構造樹的過程中,需要對數據集進行多次掃描和排序,導致算法效率低下(CART算法只需要對數據集進行兩次掃描,以下只是決策樹的優缺點)。
2.k-means算法就是K-Means算法。
K-means算法是壹種聚類算法,它將N個對象按照其屬性劃分成K個分區,K
3.支持向量機
支持向量機,英文為Support Vector Machine,簡稱SV機(本文壹般簡稱SVM)。它是壹種監督學習方法,廣泛應用於統計分類和回歸分析。支持向量機將向量映射到壹個更高維的空間,在這個空間中建立壹個具有最大區間的超平面。在分隔數據的超平面的兩側有兩個平行的超平面。分離超平面使兩個平行超平面之間的距離最大化。假設平行超平面之間的距離或間隙越大,分類器的總誤差越小。壹本優秀的指南是C . J.C Burges的《模式識別支持向量機指南》。範德沃特和巴納德將支持向量機與其他分類器進行了比較。
4.Apriori算法
Apriori算法是挖掘布爾關聯規則頻繁項集最有影響力的算法。其核心是壹種基於兩階段頻率集思想的遞歸算法。該關聯規則在分類上屬於單維、單層、布爾型關聯規則。這裏,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱為頻率集。
5.最大期望算法
在統計計算中,最大期望(EM)算法是尋找概率模型中參數的最大似然估計的算法,其中概率模型依賴於壹個不可觀測的隱變量(Latent variable bl)。最大期望常用於機器學習和計算機視覺的數據聚類領域。
6.PageRank
PageRank是Google算法的重要內容。2001年9月,他被谷歌創始人之壹拉裏·佩奇授予美國專利。所以pageRank中的page指的不是網頁,而是Page,也就是這種排名方式以Page命名。
PageRank根據壹個網站的外部鏈接和內部鏈接的數量和質量來衡量這個網站的價值。PageRank背後的概念是,壹個頁面的每壹個鏈接都是對那個頁面的投票,妳得到的鏈接越多,妳從其他網站得到的投票就越多。這就是所謂的“鏈接流行度”——衡量有多少人願意將他們的網站鏈接到妳的網站。PageRank的概念來源於壹篇論文在學術界的引用頻率——即被他人引用的次數越多,壹般判斷該論文的權威性越高。
7.adaboost算法
Adaboost是壹種叠代算法,其核心思想是針對同壹訓練集訓練不同的分類器(弱分類器),然後將這些弱分類器組裝起來,形成壹個更強的最終分類器(強分類器)。算法本身是通過改變數據分布來實現的。它根據每個訓練集中每個樣本的分類是否正確,以及最後壹次總體分類的準確性來確定每個樣本的權重。將權重修改後的新數據集送入下級分類器進行訓練,最後將每次訓練得到的分類器最終融合為最終的決策分類器。
8.kNN: k近鄰分類
k近鄰(KNN)分類算法是理論上比較成熟的方法,也是最簡單的機器學習算法之壹。這種方法的思想是:如果壹個特征空間中的k個最相似(即最接近)樣本中的大部分屬於某個類別,那麽這個樣本也屬於這個類別。
9.樸素貝葉斯
在眾多分類模型中,使用最廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型(NBC)。樸素貝葉斯模型源於經典數學理論,具有堅實的數學基礎和穩定的分類效率。
同時,NBC模型需要估計的參數少,對缺失數據不敏感,算法相對簡單。理論上,與其他分類方法相比,NBC模型的錯誤率最小。但實際上並不總是這樣,因為NBC模型假設屬性相互獨立,而這種假設在實際應用中往往是站不住腳的,這給NBC模型的正確分類帶來了壹定的影響。當屬性個數較多或屬性間相關性較大時,NBC模型的分類效率不如決策樹模型。當屬性相關性較小時,NBC模型的性能最好。
10.CART:分類和回歸樹
CART,分類和回歸樹.分類樹下有兩個關鍵的想法。第壹個是關於遞歸劃分自變量空間的思想(二元分割法);第二個想法是使用驗證數據進行修剪(預修剪、後修剪)。基於回歸樹建立模型樹的難度可能更大,但同時其分類效果也有所提高。
參考書:實戰中的機器學習