1.1聚集聚類
1.1.1相似度根據距離不同:單鏈:最近距離,完全鏈:最遠距離,平均鏈:平均距離。
1.1.2是最具代表性的算法。
1)固化算法
特征:固定數量的代表點* * *屬於同壹個代表類。
優點:識別形狀復雜大小不壹的簇,過濾孤立點。
2)ROCK算法
特點:CURE算法的改進
優點:同上,適用於類別屬性的數據。
3)變色龍算法
特點:采用動態建模技術。
1.2分解聚類
1.3的優缺點
優點:適用於任意形狀和屬性的數據集;靈活控制不同級別的聚類粒度,聚類能力強
缺點:大大延長了算法的執行時間,且不可回溯。
2.分割聚類算法
2.1基於密度的聚類
2.1.1功能
以足夠高的密度連接相鄰區域,可以有效處理異常數據,主要用於空間數據的聚類。
2.1.2典型算法
1)DBSCAN:持續生長足夠高密度的區域。
2)DENCLUE:根據屬性空間中數據點的密度進行聚類,結合密度和網格,進行處理。
3)OPTICS,DBCLASD,cud:DBS can並不是根據空間中數據密度的不同而改進的。
2.2基於網格的集群
2.2.1特性
利用屬性空間的多維網格數據結構,將空間劃分為有限數量的單元,形成網格結構;
1)優點:處理時間與數據對象的數量和數據的輸入順序無關,可以處理任何類型的數據。
2)缺點:處理時間與每個維空間劃分的單元數有關,壹定程度上降低了聚類的質量和精度。
典型算法
1)STING:基於網格多分辨率,將空間劃分為對應不同分辨率的正方形單元。
2)STING+:改進的STING,用於處理動態演化的空間數據。
3)CLIQUE:結合網格和密度聚類的思想,可以處理大規模高維數據。
4)WaveCluster:基於信號處理的思想。
2.3基於圖論的聚類
2.3.1特性
將其轉化為組合優化問題,利用圖論及相關啟發式算法求解,構造數據集的最小生成數,然後逐步刪除最長邊。
1)優點:不需要進行相似度計算。
2.3.2兩種主要的應用形式
基於超圖的1)劃分
2)基於光譜的圖形分割
2.4基於平方誤差的叠代再分布聚類
2.4.1思想
逐步優化聚類結果,將目標數據集不斷重新分配到各個聚類中心,以獲得最優解。
特定算法
1)概率聚類算法
期望最大化,處理異構數據的能力,處理結構復雜的記錄的能力,連續處理批量數據的能力,在線處理能力,生成的聚類結果易於解釋。
2)最近鄰聚類算法-* * *享受最近鄰算法SNN
特點:結合基於密度的方法和ROCK思想,保留K個最近鄰簡化相似矩陣和個數。
缺點:時間復雜度提高到O (n 2)。
3)K-中胚算法
特征:用類中的壹個點來表示聚類。
優點:它可以處理任何類型的屬性;對異常數據不敏感
4)K均值算法
“1”的特點:聚類中心用每個類別中所有數據的平均值來表示。
2.原有K-Means算法的缺陷:結果依賴於初始聚類中心的選取,容易陷入局部最優解,K值的選取沒有準則可循,對異常數據敏感,只能處理數值屬性的數據,聚類結構可能不平衡。
3“K均值的變體”
布拉德利和法耶茲等。:減少對中心的依賴,可應用於大規模數據集。
Dhillon等人:調整叠代過程中的重算中心方法以提高性能。
張等:權重軟分配調整的叠代優化過程
Sarafis:應用遺傳算法構造目標函數
Berkh in等人:應用擴展到分布式集群。
另外,采用了圖論的劃分思想來平衡聚類結果,原算法中的目標函數對應壹個各向同性的高斯混合模型。
5)優點和缺點
優點:應用最廣泛;收斂速度快;可以擴展到大規模數據集。
缺點:傾向於識別凸分布、大小和密度相似的集群;中心選擇和噪聲聚類對結果有很大影響。
3.基於約束的聚類算法
3.1約束
對單個對象和聚類參數的約束;都來自於相關領域的經驗和知識。
3.2重要應用
根據數據用障礙物數據對二維空間進行聚類,比如COD(帶遮擋距離的聚類):用兩點間的障礙物距離代替壹般的歐氏距離。
3.3不足
通常只能處理特定應用領域的特定需求。
4.高維數據的聚類算法。
4.1困難來源因素
1)無關屬性的出現使得數據失去了聚類的趨勢。
2)分界線變得模糊。
4.2解決方案
1)對原始數據進行降維。
2)子空間聚類
仙人掌:原始空間在二維平面上的投影
CLIQUE:結合基於密度和網格的聚類思想,借鑒Apriori算法。
3)聯合聚類技術
特點:同時對數據點和屬性進行聚類。
基於二部圖的代數方法及其最小分割
4.3缺點:不可避免的帶來了原始數據信息的丟失和聚類精度的降低。