目前,聚類分析的研究主要集中在聚類方法的可擴展性、復雜形狀和類型數據聚類的有效性、高維聚類分析技術以及混合數據的聚類方法等方面。其中,高維數據聚類是聚類分析中的壹個難題,也是聚類算法是否適用於很多領域的關鍵。然而,傳統的聚類算法在對高維數據空間進行聚類時會遇到困難。為了解決這個問題,R. Agrawal首先提出了子空間聚類的概念來解決高維數據的聚類問題。
傳統的聚類方法在高維數據集中進行聚類時會遇到兩個主要問題。①高維數據集中大量無關屬性的存在,使得所有維度聚類的可能性幾乎為零;②高維空間的數據分布比低維空間稀疏,數據之間的距離幾乎相等是普遍現象,而傳統的聚類方法是基於距離的,所以無法在高維空間建立基於距離的聚類。
目前解決上述問題壹般采用兩種方法:(1)特征變換,(2)特征選擇/子空間聚類。
特征選擇只在那些相關的子空間上執行挖掘任務,因此它比特征變換更有效地降低維度。特征選擇壹般使用貪婪策略等搜索方法搜索不同的特征子空間,然後使用壹些準則對這些子空間進行評估,從而找到所需的聚類。
子空間聚類算法擴展了特征選擇的任務,試圖在同壹數據集的不同子空間中尋找聚類。子空間聚類和特征選擇壹樣,需要使用壹種搜索策略和評價準則來篩選出需要聚類的簇,但是考慮到不同的簇存在於不同的子空間,需要對評價準則做壹些限制。
選擇的搜索策略對聚類結果有很大的影響。根據搜索方向的不同,子空間聚類方法可以分為兩類:自頂向下的搜索策略和自底向上的搜索策略。