隨著不同的管理信息系統(MIS)在企業不同部門的大規模應用,以及企業對數據管理的新要求,不僅要求傳統的在線事務處理,而且越來越多的應用要求在企業積累的和從外部企業獲得的豐富信息資源的基礎上,利用這些分散的、不壹致的和雜亂的信息資源,即更多地參與數據分析和決策支持,於是出現了壹種數據分析和決策支持。
1.什麽是數據倉庫
數據倉庫是面向主題的、集成的、具有時間特征的、穩定的數據集合,用於支持企業管理中的決策過程。數據倉庫為用戶提供用於決策支持的當前和歷史數據,這些數據在傳統的操作數據庫中很難或不可能獲得。
面向主題是指數據倉庫中的數據是按照壹定的主題領域來組織的。主題是壹個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的關鍵方面。壹個主題通常與多個操作信息系統相關。集成是指在提取和清理原始分散的數據庫數據的基礎上,對數據倉庫中的數據進行系統的處理、匯總和排序,必須消除源數據中的不壹致性,以保證數據倉庫中的信息是壹致的,是關於整個企業的全局信息。
數據倉庫的體系結構分為數據源、數據轉換、數據倉庫、數據集市和用戶。數據源,包括內部業務數據、遺留數據、其他業務系統數據和相關WEB數據;數據轉換是數據倉庫建設的重要環節,主要涉及對各種復雜數據源的提取、轉換、加載等處理,同時需要實現數據質量跟蹤監控,以及元數據的提取和創建。數據倉庫主要實現各種數據的組織、存儲和管理;數據集市(Data mart)是針對不同的業務分別設計的數據倉庫系統,即開發者為企業內部不同的用戶群定制專門的數據倉庫子系統。用戶部分,即面向用戶的應用部分,主要指數據倉庫訪問和檢索為用戶提供訪問數據倉庫或數據集市的功能。其中,分析與報告為用戶使用數據倉庫提供了壹套工具,幫助用戶對數據倉庫或數據集市進行在線分析或數據挖掘。
2.數據倉庫的構建方法
2.1通用數據倉庫構建方法。對於通用數據倉庫的建設,企業會在綜合整個系統建設中各種因素的基礎上,分階段、分步驟地實施整個項目。他們可以在每個階段建設的基礎上,分階段納入不同的業務系統,逐步建立適合部門和分單位的全面完整的數據倉庫系統,盡快取得投資收益。
在構建數據倉庫的過程中,模糊數學可以實現數據倉庫中數據的語義表示,豐富數據處理手段,提高分析處理能力。數據倉庫的建設壹般采用先建立數據集市,最後整合所有數據集市形成數據倉庫的漸進式模式;通過概念層、邏輯層和物理層的建模,在線確定和分析相關學科領域的數據集市。構建數據倉庫模型壹般采用以下類型:
2.1.1星型模型:星型模型是數據倉庫設計結構最常用的實現方式。數據倉庫形成壹個集成系統,為用戶提供分析服務對象。模型的核心是事實表,維度表圍繞著事實表。各種維度表由事實表連接,每個維度表都連接到中央事實表。[page] 2.1.2星系模型(也叫雪花模型):雪花模型進壹步規範了星型模型的維度表,規範了星型模型中的維度表。同時,它是星型模型的擴展,每個維度可以連接多個詳細的類別表。在實際應用中,用戶的需求是多種多樣的,數據源可能是多個事實表,因此可以采用壹個galaxy模型,也稱為事實星座,存儲在多個事實表中,通過公共維度表關聯。
2.1.3原子級數據模型和匯總級數據模型並存:堅持原子級數據模型和匯總級數據模型並存,盡可能細化原子級數據。
2.1.4設置代理鍵:代理鍵是維度表中沒有業務意義的字段,只是數據倉庫加載程序時創建的數字。
2.2空間數據倉庫的構建方法。隨著GIS(地理信息系統)在各行業的廣泛應用,原本面向事務處理的空間數據庫信息系統已經不能滿足需要,信息系統開始從管理轉向決策處理。空間數據倉庫就是為滿足這壹新需求而提出的空間信息集成系統。特別是在地理信息決策支持系統中,空間數據倉庫系統尤為重要。
空間數據倉庫具有普通數據倉庫的壹般特征,但又有壹些特殊性。空間數據倉庫不是空間數據庫的簡單集合。與空間數據庫相比,空間數據倉庫不僅支持數據庫,還支持數據文件、文本文件、應用程序等多種數據源。此外,空間數據倉庫中的數據包括時間數據、空間數據、屬性數據和異構數據。其次,空間數據倉庫還包括數據處理規則和算法。再次,空間數據倉庫的數據是對原始數據的加工、處理、集成等轉化,是數據的增值和統壹;空間數據庫還引入了時間垂直的概念,以時間為基礎管理數據,可以截取不同時間尺度上的信息,從瞬態到截面時間再到整體。空間數據倉庫是壹種依賴於時間維度的數據結構,可以根據不同的需求劃分不同的時間粒度級別,用於各種復雜的趨勢分析。當然,不言而喻,它還包含空間維度的方位數據。由於空間數據倉庫與普通數據倉庫的區別,以及其空間數據倉庫的概念完全不同,普通空間數據倉庫分為四個功能模塊,具有以下架構,即源數據、數據轉換工具、空間數據倉庫和客戶端分析工具。源數據不僅指那些常見的空間數據庫,還包括文件、網頁、知識庫、遺留系統和其他數據源。數據轉換工具具有與普通數據倉庫數據轉換相同的提取和轉換功能,但它還包括獨特的空間轉換。空間數據倉庫以三維和多維的方式組織和顯示數據。而最基本的空間維度和時間維度是反映客觀世界動態變化的基礎,空間數據倉庫技術最關鍵的壹點就是時間維度和空間維度的組織方式。目前,空間數據倉庫已經成為國內外GIS(地理信息系統)研究的熱點,並取得了很大的進展。為了將空間信息整合到企業現有的數據倉庫中,在不大幅改動原系統的前提下,壹般采用三種模式來構建企業空間數據倉庫:(1)在多維模型中引入空間信息作為空間維度;(2)引入空間信息作為研究課題;(3)空間信息包含在維度和度量中。因此,計算和存儲所有空間度量是不現實的。通常,空間索引樹(如R樹)用於以最細的空間粒度構建分組層次結構。作為空間維度的層次結構,需要為每個空間維度建立空間索引樹。
3.結束語
總之,數據倉庫的建設是數據倉庫技術的關鍵,數據倉庫技術是壹種基於數據管理和利用的綜合性技術和解決方案,特別是空間數據倉庫在GIS中的廣泛應用,已經成為數據庫市場新壹輪的增長點和下壹代信息系統的重要組成部分。