可擴展性由於數據生成和收集技術的進步,幾千兆字節、幾太字節甚至幾千兆字節的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,算法必須是可伸縮的。許多數據挖掘算法使用特殊的搜索策略來處理指數搜索問題。可伸縮性可能還需要實現新的數據結構,以高效的方式訪問各個記錄。例如,當要處理的數據無法放入內存時,可能需要非內存算法。使用采樣技術或開發並行和分布式算法也可以提高可擴展性。
高維現在我們經常遇到的是擁有成百上千個屬性的數據集,而不是幾十年前常見的只有幾個屬性的數據集。在生物信息學領域,微陣列技術的進步產生了涉及數千種特征的基因表達數據。具有時間或空間成分的數據集也往往具有高維度。例如,考慮壹個包含不同地區溫度測量值的數據集。如果長時間重復測量溫度,維度(特征數)的增長與測量次數成正比。為低維數據開發的傳統數據分析技術通常不能很好地處理這種高維數據。另外,對於壹些數據分析算法,隨著維數(特征數)的增加,計算復雜度迅速增加。
異構數據和復雜數據通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,無論是連續的還是分類的。隨著數據挖掘在商業、科學、醫學和其他領域中的作用越來越大,越來越需要能夠處理異構屬性的技術。近年來,出現了更復雜的數據對象。這些非傳統數據類型的示例包括包含半結構化文本和超鏈接的網頁集、具有順序和三維結構的DNA數據以及包含時間序列測量值(溫度、氣壓等)的氣象數據。)在地球表面的不同位置。為挖掘這種復雜對象而開發的技術應該考慮數據中的關系,例如時間和空間的自相關性、圖的連通性以及半結構化文本和XML文檔中元素之間的父子關系。
數據的歸屬和分布有時候,要分析的數據不是存儲在壹個站點或者屬於壹個單位,而是在地理上分布在屬於多個機構的資源中。這就需要發展分布式數據挖掘技術。分布式數據挖掘算法面臨的主要挑戰包括:(1)如何降低分布式計算所需的通信流量?(2)如何有效統壹從多個資源獲得的數據挖掘結果?(3)如何處理數據安全?
非傳統分析傳統的統計方法基於假設檢驗模型。換句話說,提出壹個假設,設計壹個實驗收集數據,然後根據假設分析數據。然而,這壹過程費工費力。目前,數據分析任務往往需要生成和評估成千上萬的假設,因此自動生成和評估假設的希望導致了壹些數據挖掘技術的發展。此外,數據挖掘分析的數據集通常不是精心設計的實驗結果,它們通常代表壹個機會樣本而不是隨機樣本。而且,這些數據集往往涉及非傳統的數據類型和數據分布。
通常,數據挖掘任務分為以下兩類:
我預測任務。這些任務的目標是根據其他屬性的值預測特定屬性的值。被預測的屬性壹般稱為目標變量或因變量,而用於預測的屬性稱為解釋變量或自變量。
我描述任務。這裏,目標是導出總結數據中潛在關系的模式(相關性、趨勢、聚類、軌跡和異常)。本質上,描述性數據挖掘任務通常是探索性的,並且通常需要後處理技術來驗證和解釋結果。