因此,大多數企業會選擇壹種集成的方式,使新舊系統技術協同工作。例如,基於Hadoop的客戶分析應用程序與現有的客戶數據倉庫相結合。來自數據倉庫的客戶數據可以放入Hadoop應用進行分析,分析結果返回到數據倉庫。
大數據協會
集成的第壹步是設置數據倉庫和大數據平臺的關聯。目前,大數據系統主要用於增強數據倉庫的能力,數據存儲的成本低於傳統數據倉庫。在數據倉庫分析之前,許多早期用戶還會使用Hadoop集群和NoSQL數據庫來存儲數據。這些應用使用起來非常簡單,就像使用Hadoop分布式文件系統(HDFS)存儲數據壹樣,還可以通過Hive、HBase、Cassandra等NoSQL技術建立更復雜的關聯。
將這些工具和數據倉庫與商業智能框架結合起來需要相關性和解釋。您可以使用應用程序接口為數據倉庫提供Hadoop和NoSQL系統的接口。此外,很多廠商都提供了封閉的連接器來連接SQL數據庫和大數據系統,包括基於集成標準的ODBC(開放式數據庫連接)和JDBC(Java數據庫連接)。對於不適合傳統關系模型的系統,可以使用集成層將半結構化數據從原始格式(如YAML或JSON)轉換為商業智能應用程序可以讀取的格式。
還有其他更緊密結合的方式。例如,數據倉庫系統正在逐步向MapReduce功能開放,從而增強SQL語言,並將Hadoop集群的分析和處理與商業智能查詢結果相結合。再比如把Hadoop分析結果和數據倉庫結合起來,生成報表和分析。
大數據阻力
隨著大數據的不斷發展,許多it和數據倉庫團隊迫切需要整合不同的應用程序。高度靈活的集成方案至關重要。
斷開的架構。典型的方法是試點項目或驗證概念,或者測試早期產品應用,包括在自己的隔離環境中部署Hadoop或NoSQL系統。壹個結構良好的集成方案必須將IT和數據架構與業務洞察力和設計相結合,並在混合數據庫、商業智能和分析架構中部署多個層。
管理缺陷。大數據工具的開源特性往往導致企業關註功能而非管理。隨著商業大數據軟件的成熟,這種情況會得到緩解。但是現在還是要註重管理能力的提升。
技術短缺。擴大大數據集成的最大挑戰在於使用Hadoop和NoSQL技術過程中產生的陡峭的學習曲線。畢竟在IT圈,並行和分布式處理技術還很難理解,真正有大數據應用開發升級經驗的人就更少了。內部培訓可能是最快最便宜的方法。
在將Hadoop和NoSQL與數據倉庫環境集成的問題上,許多公司關心的不是可行性,而是時間。如果妳早做準備,妳就能很好地把握妳所面臨的障礙。對於不同的集成需求,企業需要構建可重復的解決方案流程,這是項目的最終目標。