Classification (分類),對於壹個classifier,通常需要妳告訴它“這個東西被分為某某類”這樣壹些例子,理想情況下,壹個 classifier 會從它得到的訓練集中進行“學習”,從而具備對未知數據進行分類的能力,這種提供訓練數據的過程通常叫做supervised learning (監督學習),
Clustering (聚類),簡單地說就是把相似的東西分到壹組,聚類的時候,我們並不關心某壹類是什麽,我們需要實現的目標只是把相似的東西聚到壹起。因此,壹個聚類算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練數據進行學習,這在Machine Learning中被稱作unsupervised learning (無監督學習).
2、常見的分類與聚類算法
所謂分類,簡單來說,就是根據文本的特征或屬性,劃分到已有的類別中。如在自然語言處理NLP中,我們經常提到的文本分類便就是壹個分類問題,壹般的模式分類方法都可用於文本分類研究。常用的分類算法包括:決策樹分類法,樸素貝葉斯分類算法(native Bayesian classifier)、基於支持向量機(SVM)的分類器,神經網絡法,k-最近鄰法(k-nearestneighbor,kNN),模糊分類法等等。
分類作為壹種監督學習方法,要求必須事先明確知道各個類別的信息,並且斷言所有待分類項都有壹個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量數據的時候,如果通過預處理使得數據滿足分類算法的要求,則代價非常大,這時候可以考慮使用聚類算法。
而K均值(K-mensclustering)聚類則是最典型的聚類算法(當然,除此之外,還有很多諸如屬於劃分法K中心點(K-MEDOIDS)算法、CLARANS算法;屬於層次法的BIRCH算法、CURE算法、CHAMELEON算法等;基於密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基於網格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基於模型的方法)。