1.數據清理:通過填充缺失值、平滑噪聲數據、識別或刪除異常值以及解決不壹致問題來“清理”數據。主要實現以下目標:格式標準化、異常數據剔除、糾錯、重復數據剔除。
2.數據集成:數據集成例程組合來自多個數據源的數據,並統壹存儲它們。構建數據倉庫的過程實際上就是數據集成。
3.數據轉換:通過平滑聚合、數據泛化和標準化,將數據轉換成適合數據挖掘的形式。
4.數據約簡:在數據挖掘中,數據量往往很大,分析少量數據需要很長時間。利用數據約簡技術可以得到數據集的約簡表示,它要小得多,但仍接近保持原始數據的完整性,結果與約簡前相同或幾乎相同。