移除唯壹屬性
唯壹屬性通常是壹些id屬性,不能描述樣本本身的分布規律,簡單刪除這些屬性即可。
處理缺失值
處理缺失值的方法有三種:直接使用缺失值的特征;刪除有缺失值的要素(當有缺失值的屬性包含大量缺失值但只有少量有效值時,此方法有效);缺少值完成。
常見的缺失值補全方法:均值插值、齊次均值插值、建模預測、高維映射、多重插值、最大似然估計、壓縮感知和矩陣補全。
(1)平均插值
如果樣本屬性的距離可測,則用該屬性有效值的平均值對缺失值進行插值;
如果的距離不可測量,則使用屬性有效值的模式對缺失值進行插值。如果使用模式插值,數據傾斜會有什麽影響?
(2)相似均值插值
首先對樣本進行分類,然後用該類樣本的平均值對缺失值進行插值。
(3)建模和預測
以缺失屬性為預測目標,根據數據集是否包含特定屬性的缺失值將數據集分為兩類,利用現有的機器學習算法預測待預測數據集的缺失值。
這種方法的根本缺陷是,如果其他屬性與缺失屬性無關,那麽預測結果就沒有意義;但如果預測結果相當準確,則說明這個缺失的屬性沒有必要包含在數據集中;壹般來說,介於兩者之間。
(4)高維映射
屬性映射到高維空間,采用壹鍵編碼技術。包括K個離散值範圍的屬性值被擴展到K+1個屬性值。如果缺少屬性值,擴展的K+1屬性值將設置為1。
這種方法是最精確的方法,它保留了所有的信息,不添加任何額外的信息。如果在預處理過程中所有變量都這樣處理,數據的維數會大大增加。這樣做的好處是完全保留了原始數據的所有信息,不考慮缺失值;缺點是計算量大大提高,只有在樣本量很大的情況下效果才好。
(5)多重插補
多重插值認為要插值的值是隨機的。在實際操作中,通常需要估計待插值的值,並加入不同的噪聲,形成多組可選的插值值。根據壹些選擇依據,選擇最合適的插值。
(6)壓縮傳感和矩陣完成
(7)手動插值
插值處理只是用我們的主觀估計值來補充未知值,不壹定完全符合客觀事實。很多情況下,根據對領域的理解,手動內插缺失值更好。