1,數據清理
數據清洗是通過填補缺失值、平滑或刪除異常值、糾正數據不壹致來達到清洗的目的。簡單來說就是剔除數據中缺失的數據和有問題的數據。
總的來說,數據清洗是壹項繁重的工作,需要根據數據的準確性、完整性、壹致性、及時性、可信度和解釋力來對數據進行檢查,從而獲得標準、幹凈、連續的數據。
(1)缺失值處理
在實際獲取信息和數據的過程中,會有各種原因導致數據丟失和空缺。對於這些缺失值,會根據變量的分布特征和變量的重要性采取不同的方法。
如果變量缺失率高(80%以上),覆蓋率低,重要性低,可以直接刪除變量。這種方法叫做刪除變量。如果缺失率較低(小於95%),重要性較低,則根據數據分布使用基本統計量(最大值、最小值、平均值、中值和眾數)進行填充。這種方法稱為缺失值填充。
對於缺失數據,壹般根據缺失率決定“刪除”或“補充”。
(2)異常值處理
離群值(Outliers)是數據分布的正態性,在特定分布區域或範圍之外的數據通常被定義為異常或噪聲。我們常用的方法是刪除離群值。
(3)不壹致的數據處理
在實際的數據生產過程中,由於壹些人為因素或其他原因,記錄的數據可能會出現不壹致的情況,這些不壹致的數據需要在分析之前進行清理。例如,可以通過與原始記錄進行比較來糾正數據輸入中的錯誤,還可以使用知識工程工具來檢測違反規則的數據。
2.數據集成
隨著大數據的出現,數據源越來越多,數據分析任務大多涉及多個數據源的數據合並。數據集成是指組合來自多個數據源的數據的數據存儲,這些數據源可能包括多個數據庫或數據文件。
在數據集成的過程中,我們會遇到壹些問題,比如表達不壹致、數據冗余等。針對不同的問題,下面簡單介紹壹下如何處理。
(1)實體識別問題
當匹配來自多個不同信息源的真實世界的實體時,如果兩個不同數據庫中的不同字段名稱指向同壹個實體,則數據分析師或計算機需要將這兩個字段名稱更改為壹致,以避免模式集成中的錯誤。
(2)冗余問題
冗余是數據集成中的常見問題。如果壹個屬性可以從另壹個屬性或另壹組屬性中“派生”出來,那麽它可能是多余的。
(3)數據值的沖突和處理
不同的數據源在統壹合並的時候需要標準化,有重復的就要復制。
數據預處理的方法有哪些?陳中魔方大數據分析平臺表示,在實際操作中,我們得到的數據可能包含大量的缺失值和異常值,這對數據分析非常不利。這時候就需要對臟數據進行預處理,得到標準的、幹凈的、連續的數據,可用於數據分析、數據挖掘等。
數據審核的內容主要包括以下四個方面:
1,精度審核。它主要從真實性和準確性的角度審查數據,其審計的重點是檢查調查過程中出現的錯誤。
2.適用性審查。主要是根據數據的用途,檢查數據解釋的程度。具體包括數據是否匹配調查主題、總體目標的界定、調查項目的說明等。
3.及時復習。主要是檢查數據是否按照規定時間提交。如果沒有按照規定時間提交,就要檢查沒有及時提交的原因。
4.壹致性審計。主要是檢查不同地區或國家,不同時間段的數據是否具有可比性。