分類和聚類的區別及各自的常見算法

1、分類和聚類的區別：

Classification (分類)，對於壹個classifier，通常需要妳告訴它“這個東西被分為某某類”這樣壹些例子，理想情況下，壹個 classifier 會從它得到的訓練集中進行“學習”，從而具備對未知數據進行分類的能力，這種提供訓練數據的過程通常叫做supervised learning (監督學習)，

Clustering (聚類)，簡單地說就是把相似的東西分到壹組，聚類的時候，我們並不關心某壹類是什麽，我們需要實現的目標只是把相似的東西聚到壹起。因此，壹個聚類算法通常只需要知道如何計算相似度就可以開始工作了，因此 clustering 通常並不需要使用訓練數據進行學習，這在Machine Learning中被稱作unsupervised learning (無監督學習).

2、常見的分類與聚類算法

所謂分類，簡單來說，就是根據文本的特征或屬性，劃分到已有的類別中。如在自然語言處理NLP中，我們經常提到的文本分類便就是壹個分類問題，壹般的模式分類方法都可用於文本分類研究。常用的分類算法包括：決策樹分類法，樸素貝葉斯分類算法(native Bayesian classifier)、基於支持向量機(SVM)的分類器，神經網絡法，k-最近鄰法(k-nearestneighbor，kNN)，模糊分類法等等。

分類作為壹種監督學習方法，要求必須事先明確知道各個類別的信息，並且斷言所有待分類項都有壹個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量數據的時候，如果通過預處理使得數據滿足分類算法的要求，則代價非常大，這時候可以考慮使用聚類算法。

而K均值(K-mensclustering)聚類則是最典型的聚類算法(當然，除此之外，還有很多諸如屬於劃分法K中心點（K-MEDOIDS）算法、CLARANS算法；屬於層次法的BIRCH算法、CURE算法、CHAMELEON算法等；基於密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；基於網格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法；基於模型的方法)。

上一篇:農村的竈臺門應該朝向哪個方向？農村土竈口方向最好。

下一篇:剪紙挖出第壹桶金:大三女生生意年賺百萬。