1.K-Means算法
K-means algorithm算法是壹個聚類算法,把n的對象根據他們的屬性分為k個分割,k大於n。它與處理混合正態分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量,並且目標是使各個群組內部的均方誤差總和最小。這種算法在數據挖掘中是十分常見的算法。
2.支持向量機
而Support vector machines就是支持向量機,簡稱SV機(論文中壹般簡稱SVM)。它是壹種監督式學習的方法,這種方法廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到壹個更高維的空間裏,在這個空間裏建立有壹個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。這些優點也就成就了這種算法。
3.C4.5算法
然後我們給大家說壹下C4.5算法,C4.5算法是機器學習算法中的壹種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,並對ID3算法進行了改進,這種改進具體體現在四個方面,第壹就是在樹構造過程中進行剪枝,第二就是能夠完成對連續屬性的離散化處理,第三就是用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足,第四就是能夠對不完整數據進行處理。那麽這種算法的優點是什麽呢?優點就是產生的分類規則易於理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
相信大家看了這篇文章以後對The k-means algorithm算法、Support vector machines、C4.5算法有了比較是深刻的了解,其實這三種算法那都是十分重要的算法,能夠幫助數據挖掘解決更多的問題。大家在學習數據挖掘的時候壹定要註意好這些問題。