當前位置:吉日网官网 - 傳統節日 - 數據倉庫的含義,數據倉庫和數據庫的區別。

數據倉庫的含義,數據倉庫和數據庫的區別。

什麽是數據倉庫

目前,數據倉庫這個詞還沒有壹個統壹的定義。著名的數據倉庫專家W.H.Inmon在其著作《構建數據倉庫》中給出了如下描述:數據倉庫是壹個面向主題的、集成的、非易失的、時變的數據集,用於支持管理決策。我們可以從兩個層面來理解數據倉庫的概念。首先,數據倉庫用於支持決策和面向分析的數據處理,不同於企業現有的運營數據庫。其次,數據倉庫是多個異構數據源的有效集成。整合後按照主題重新組織,包含歷史數據,存儲在數據倉庫中的數據壹般不做修改。

數據庫是加載數據(信息的原材料)的地方。

數據倉庫是壹種系統,也是用數據庫加載東西。

數據倉庫系統(用數據庫加載東西)與其他基礎業務系統(如財務系統、銷售系統、人力資源系統等)的區別。,也用數據庫加載東西)如下:

基本業務系統的特點是自己管理。比如財務系統生產白菜,會加載壹個數據庫,人力資源系統生產豬肉,然後會加載壹個數據庫。如果我想做壹道菜,需要去各個數據庫取,比較麻煩(現實情況是大部分時候是種菜的叔叔給我發的,但是我發的不壹定是我想要的,而且不同時間想要的東西不壹樣,往往會讓雙方都不開心)。另壹方面,每個數據庫裏都有壹些原始的東西。我要帶他們去做飯,還要經歷壹個很麻煩的清洗過程。如果我不小心,裏面可能藏著壹只大毛毛蟲。

然後,數據倉庫系統就是建壹個大超市,把各地農民伯伯生產的東西收集起來,清洗幹凈,分門別類放好。這樣,當妳想要什麽樣的食物時,直接從超市拿就行了。

早期,我不明白什麽是數據倉庫。

從宏觀的角度來看,數據倉庫是公司所有數據堆積的地方。之所以把所有的數據堆在壹起,是想從中間找到壹些有價值的東西。

數據倉庫更多的是壹個概念。不要認為數據倉庫是被稱為數據倉庫的軟件產品。

數據倉庫實際上是壹個數據庫。相關的業務系統數據庫稱為OLTP數據庫(用於業務處理),這個數據庫稱為OLAP數據庫(用於業務分析)。

數據倉庫的概念基於以下基本要求:

公司業務系統多,業務系統的歷史數據不方便查詢。不同的業務系統往往有不同的管理部門和不同的區域。妳能收集所有這些數據並找出是否有任何有意義的商業規則嗎?

數據倉庫的數據庫往往非常大,因為公司所有數據集中的數據越多,能發現的有價值的發現就越多。比如隨便在100G g以上。

數據倉庫的組成非常復雜,包括業務系統的歷史數據、人事和財務數據,以及壹些基礎數據,如節假日數據、地理信息、國家信息等等。

數據倉庫的概念包括從業務生產系統收集數據的程序,它不能影響業務系統的運行。(屬於所謂的“ETL”過程)

數據倉庫包括業務系統的長期歷史數據,如五年,用於分析。(所謂的“ODS”數據)

數據倉庫包括為某個業務值(如銷售額)重新標記的業務流數據。(所謂的“事實表”和“維度表”)。

數據倉庫的概念可能還包括報告生成工具(所謂的“BI”工具)。這些工具可以達到幾年前所謂的DSS(決策分析)效果。

數據倉庫中客戶歷史數據的分析可能與CRM系統有關。

總之,壹家公司想充分利用現有的歷史業務數據,所以去做數據倉庫項目。至於嚇唬人的大寫字母組合,達到這個目的只是科技而已。

牢記數據倉庫的基本需求,不要被供應商嚇到。

數據倉庫可以說是壹個決策支持系統,可以幫助老板了解企業的全貌。老板看到數據倉庫提供的數據後,就可以憑自己的管理經驗找出企業的問題或困難或成功因素,然後就可以不斷追溯數據,直到確定最具體的細節,從而不斷提高老板或管理層的管理水平和企業的管理水平。我們所知道的最好的例子是美國壹家大型超市裏啤酒和尿布的故事。

美國沃爾瑪的壹位店長曾經發現,每周啤酒和紙尿褲的銷量都會同比上升,但不清楚原因。後來,沃爾瑪利用商業智能(BI)技術發現,購買這兩款產品的顧客幾乎都是25歲至35歲、家裏有嬰兒的男性,每次購買都是在周末。沃爾瑪分析相關數據後了解到,這些人習慣在晚上壹邊照顧孩子壹邊看足球賽喝啤酒,用壹次性紙尿褲省事。得到這個結果後,沃爾瑪決定將兩種產品放在壹起,結果兩種產品的銷量都大幅增長。

數據庫是數據倉庫的基礎。數據倉庫實際上是由數據庫中的許多表組成的。需要對存儲大量運營業務數據的數據庫進行篩選、提取、匯總、統計,轉換成新的數據庫。然後數據就會呈現出來。老板關心的是數據展示的結果。

數據倉庫/數據集市的另壹個重要概念是數據從不同的數據庫中轉出來,通過ETL工具(如POWERCENTRE、Decision Stream、SQL Server 2000 DTS和SQL Server 2005 SSIS)進行清洗、確認、集成和設計成壹個維度框架。保證數據的正確性、準確性和完整性是非常重要的。

我們現在的項目已經穩定運行了6年多,壹直是我們自己開發的。最近我們慢慢開始用datastage了。很多大型項目之所以使用工具,是因為工具的特點是開發速度快,效率相對可以接受,可以讓妳把更多的精力花在業務、數據庫優化、數據測試上,與數據質量本身無關。

數據質量與壹系列項目工程過程密切相關,如設計(架構、模型等。)、對業務關系的理解、項目管理(包括與客戶的溝通、遵守開發和測試流程)。這也是很多項目使用ETL工具,數據質量卻沒有太大提升的主要原因。

數據倉庫的作用在於數據的集中管理。集中管理的最終目的是分析和預測。

所謂的ETL。然而,這是構建數據倉庫的壹個必經過程。數據的提取、轉換和加載是集中管理的基礎工作,這些數據和動作的描述將通過響應元數據來描述。

在數據倉庫建模過程中,我們通常采用多維模型,如星形、雪花形等。這樣最大的特點就是效率高,數據冗余低。因此,我認為把OLAP和數據倉庫混為壹談是壹種片面的解釋。

我們也可以選擇業務邏輯模型來構建數據倉庫,這是很久以前就做的。其特點是效率低,數據冗余高,但可以實現非常難以表達的業務邏輯設計。

基於數據倉庫,最重要的是分析和預測。在我看來,歷史是現在和未來數據倉庫的本質。。

基於數據倉庫的數據挖掘和OLAP都是為了分析和預測。為了讓用戶更好地把握現在,預測未來,他最有效的說法,我認為,是決策管理中決策者和管理者進行分析和預測的依據。

此外,數據倉庫還將服務於對歷史數據進行分類和歸檔的目的(就像圖書館壹樣),然後可以通過檢索條件方便地查詢歷史信息;OLTP中已經更新了類似的信息。

至於它的分析功能,就像氣象考古研究壹樣,當時的氣象信息都保存在不同深度的冰川中,否則,用什麽來預測氣候變化趨勢呢?

但是,必須有相當的管理和技術儲備以及管理層的大力支持。有了需求,具備了必要的條件,妳才能入門,否則妳的數據倉庫就不是超市而是垃圾場,“垃圾進,再垃圾出”!

所以我認為是企業信息化建設和科學管理水平的提高催生了數據倉庫的必然出現。不要跟風炒作概念。關鍵是要冷靜分析自己企業的實際情況是否已經到了部署數據倉庫的階段!

至於如何說服管理者,就需要妳的努力了。不要站在妳們技術人員的立場上解釋問題。首席執行官對技術問題不感興趣。站在他們的角度思考問題,回答諸如“我們投入了這麽多的資金和人力,同時又面臨著系統升級的巨大風險。目的是什麽?”記住,CEO和CFO(甚至CIO)更喜歡用數字說話。妳可以通過分析公司的管理決策過程,為他們提供有價值的決策支持報告,部門經理(或類似人員)也不必每個季度都做相關的分析報告。省下來的能量可以做更有價值的事情。這就是企業人力資源利用率的極大提高,能省多少錢。我怕CEO不會用妳來提示!

  • 上一篇:尋找英語中性別歧視的文章和事件?
  • 下一篇:日本習俗
  • copyright 2024吉日网官网