統壹數據倉庫層從業務完整性的角度重新組織數據,而不考慮業務系統流程。統壹倉庫層的目標是建立壹套覆蓋全領域和歷史的企業數據系統,可以隨時還原企業的業務運行狀態。只要能達到這個目標,就可以使用範式建模、維度建模、實體建模等任何建模方法。
特點:
概念:
維度是維度建模的基礎,核心是確定維度屬性(查詢約束-sql where條件,分組sql組語句的基本來源和報表標簽生成);
維度表寬、平、非標準,包含大量細粒度的文本屬性。尺寸表的設計過程如下:
進行標簽構建,首先要知道要標註什麽樣的對象,也就是確定對象。
在總結了很多行業、很多標簽體系的經驗後,對象可以分為三類:人、物、關系。其中,“人”包括自然人、自然人團體、法人、法人團體等。,如消費者、消費者協會、電子商務企業、電子商務企業聯合會等,是可以主動發起行為的主體。“物”包括商品、物品和商品的集合,如商品、倉庫等,是行為中要給予的對象。關系是指人與人、物與物、人與人、物與物在某壹時刻的某種行為、聯想和關系,包括行為、歸屬和思維的關系,如購物、航運、聊天、監督等。因此,這種物體識別方法可以用來將現實世界中的所有事物和關系以這種方式對應到相應的物體分類中。
類別系統有壹個核心意義:它幫助用戶快速找到和管理數據/標簽。
根目錄:人、事物和關系
標簽本質:對客觀世界中物理對象的壹種度量和描述,是經過縝密的邏輯分析和處理以引導數據應用價值的產物;數據必須轉化為可以幫助提升業務的標簽,否則就是數據負擔;大數據行業壹直在努力探索的核心環節是數據的商業變現;
標記:將數據轉換為標記的過程稱為標記。
標簽設計的兩個先決條件:
標簽必須是業務中需要的數據項,能夠體現業務價值,幫助業務人員進行業務判斷或創造性地喚醒新的業務場景;
要搞清楚根據業務需求提取整理的標簽是否具有數據可行性,是否有原始數據可以用來加工成標簽,是否沒有天馬行空,沒有落地點;
標簽設計中壹些容易混淆的概念;
標簽根目錄:標簽的對象(人、事、關系)
標簽類別:對象的分離和對象的角度、層次或過程。
標簽:對對象的特定屬性、特征、信息和內容的字段級描述。
標簽值:對象屬性、特征、信息和內容的具體值。
標簽設計內容分兩類,如下:
標簽融合表組織:
縱向表:類似於K-V表,每壹行都有壹個標簽,例如ID、標簽名稱和標簽值。
水平表:壹個普通的二維表,每行代表壹個對象,包含多個標簽。
垂直表和水平標準的比較:
模型穩定性:縱向表相對穩定,增加新標簽意味著增加記錄,不需要修改模型結構;水平表不穩定,只有添加或修改標簽元數據才會涉及到模型的修改;
易用性:橫式表格簡單易懂,大部分數據處理技術都是面向二維表格,易於使用;縱表適合單值查詢,不方便復雜計算,易用性差;
性能:水平表添加標簽只是增加了列,行數和對象數是壹樣的,所以性能相對較好;縱表每增加壹個標簽,所有對象就增加壹行,很難處理;
應用數據層是壹個簡單的數據組裝層,構建在統壹倉庫層和標簽數據層之上。與數據集市不同,它必須為特定的業務獨立構建。應用數據層的構建和完善是從企業層面的幾個類似業務場景來考慮的,具有靈活對應數據集市的特點。沒有非常規範的建設標準。