1數據挖掘
1.1數據挖掘與傳統數據分析的區別
數據挖掘與查詢、報表、在線應用分析等傳統數據分析的本質區別在於,數據挖掘是在沒有明確假設的情況下挖掘信息、發現知識。數據挖掘得到的信息應該具有三個特征:以前未知的、有效的、實用的。也就是說,數據挖掘就是尋找直覺找不到的信息或知識,甚至是違背直覺的信息或知識。挖掘出的信息越出人意料,可能就越有價值。然而,傳統的數據分析趨勢是從大型數據庫中抓取所需數據,並使用專屬的計算機分析軟件。因此,數據挖掘與傳統的分析方法有很大的不同。
1.2數據挖掘的應用價值
(1)分類:首先從數據中選擇已經分類的訓練集,在這個訓練集上使用數據挖掘分類的技術,建立分類模型,對未分類的數據進行分類。(2)估計:類似於分類,區別在於分類描述的是離散變量的輸出,而估計處理的是連續值的輸出;分類是確定的數字,估計是不確定的。(3)聚類:將記錄分組。聚類和分類的區別在於,聚類不依賴於預定義的類,不需要訓練集。中國移動利用先進的數據挖掘工具馬克威分析系統對用戶的wap上網行為進行聚類分析,通過客戶分組進行精準營銷。(4)關聯規則和序列模式的發現:關聯是這樣壹種聯系,當某件事情發生時,其他事情也會發生。比如每天買啤酒的人也有可能買煙,比例可以用協會的支持度和公信力來描述。與關聯不同,序列是壹種垂直關聯。比如今天銀行調整利率,明天股市就變了。(5)預測:通過分類或估計得到模型,用於預測未知變量。(6)偏差檢測:對分析對象少數極端特例的描述,揭示內在原因。此外,它還廣泛應用於客戶分析、物流和企業資源優化、異常檢測和企業分析模型管理。
2數據倉庫
2.1數據倉庫的特點
(1)面向主題的數據集。數據倉庫是圍繞客戶、供應商、產品和銷售等主題組織的。數據倉庫側重於決策者的數據建模和分析,而不是組織的日常運作和事務處理。(2)綜合數據集。數據倉庫中的數據是在對原始分散的數據庫數據進行提取和清理的基礎上,經過系統的加工、匯總和整理而得到的。必須消除源數據中的不壹致性,以確保數據倉庫中的信息是壹致的,並且是關於整個企業的全局信息。(3)時變數據集。數據存儲從歷史的角度提供信息。數據倉庫中的數據通常包含歷史信息,通過這些信息可以定量分析和預測企業的發展歷程和未來趨勢。(4)非易失性數據集。數據倉庫中的數據主要用於企業決策分析,涉及的數據操作主要是數據查詢,很少有修改和刪除操作,通常只需要定期加載和刷新。數據倉庫中的數據通常只需要兩個操作:初始加載和數據訪問,因此其數據相對穩定,很少或從不更新。2.2數據倉庫的類型
數據倉庫的類型根據數據倉庫所管理的數據類型和所解決的企業問題的範圍,數據倉庫壹般可以分為以下三種類型:企業數據倉庫(EDW)、操作數據庫(ODS)和數據集市。①企業數據倉庫是壹個通用的數據倉庫,既包含大量的明細數據,也包含大量的繁瑣或聚合的數據,不容易改變和面對歷史。這種數據倉庫用於制定涵蓋各種企業領域的戰略或戰術決策。(2)操作型數據庫可以用來對工作數據進行決策支持,也可以作為向數據倉庫加載數據時的過渡區。與EDW相比,ODS面向主題且全面、多變,只包含當前和詳細數據,不包含累積和歷史數據。③數據集市是從數據倉庫中分離出來的用於特定應用目的或範圍的數據的壹部分,也可以稱為部門數據或主題數據。幾組數據集市可以組成壹個EDW。
2.3數據倉庫與傳統數據庫的比較
兩者既有聯系又有區別。數據倉庫的出現並不是要取代數據庫。目前,大多數數據倉庫都是由關系數據庫管理系統管理的。可以說數據庫和數據倉庫是相輔相成,各有優勢的。兩者的區別可以從以下幾個方面來比較:
(1)出發點不同:數據庫是面向事務的設計;數據倉庫是面向主題的。(2)存儲的數據不同:數據庫壹般存儲網上交易數據;數據倉庫壹般存儲歷史數據。(3)設計規則不同:數據庫設計是盡可能避免冗余,壹般采用符合範式的規則;在數據倉庫的設計中,冗余是有意引入的,並且是以壹種反常規的方式設計的。(4)提供的功能不同:數據庫是為抓取數據設計的,數據倉庫是為分析數據設計的。(5)基礎元素不同:數據庫的基礎元素是事實表,數據倉庫的基礎元素是維度表。(6)容量不同:數據庫的基本容量遠小於數據倉庫。(7)服務對象不同:數據庫是為了高效的事務處理而設計的,服務對象是企業業務處理的工作人員;數據倉庫是為了分析數據和進行決策而設計的,服務對象是企業的高層決策者。
3數據倉庫和數據挖掘的關系
當然,數據挖掘不壹定要建數據倉庫。數據倉庫不是必需的。建立壹個龐大的數據倉庫,把不同來源的數據統壹起來,解決所有的數據沖突,然後把所有的數據導入壹個數據倉庫,這是壹個龐大的工程,可能需要幾年時間,幾百萬美元才能完成。就拿數據挖掘來說,妳可以把壹個或者幾個事務數據庫導入到壹個只讀數據庫中,把它當成壹個數據集市,然後在上面進行數據挖掘。