大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,壹方面,數據存儲的需求越來越大;另壹方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性提出了更高的要求,需要充分考慮功能集成、數據安全、數據穩定、系統可擴展性、性能和成本。
大數據存儲和應用的特點分析
“大數據”是由結構復雜、類型眾多的海量數據組成的數據集。它是基於雲計算的數據整合、共享和交叉復用形成的智力資源和知識服務能力。其共同特征可以概括為3V:量、速、變(大規模、高速度、多樣性)。
大數據具有數據量大、增長快的特點。其數據規模已經從PB級增長到EB級,並且還在根據實際應用和企業二次開發的需要不斷擴大,正在向ZB(ZETA-BYTE)規模快速邁進。以國內最大的電商企業淘寶為例,根據淘寶數據顯示,截至2011年底,淘寶最高單日獨立用戶訪問量超過1.2億,比201同期增長1.20%,註冊用戶超過4億,在線商品和頁面瀏覽量8億。淘寶每天產生4億條商品信息,每天的活躍數據量已經超過50TB。因此,大數據的存儲或處理系統不僅能滿足當前的數據規模需求,還需要強大的可擴展性來滿足快速增長的需求。
(1)大數據的存儲和處理不僅在於其規模大,還要求其在傳輸和處理上的響應速度快。
與過去的小規模數據處理相比,在數據中心處理大規模數據時,需要服務集群的高吞吐量,才能使海量數據在應用開發者“可接受”的時間內完成任務。這既是對各種應用級別計算性能的要求,也是對大數據存儲管理系統讀寫吞吐量的要求。比如個人用戶在網站上購買自己感興趣的商品,網站根據用戶的購買或瀏覽行為實時推薦相關廣告,這就需要應用的實時反饋;比如電商網站的數據分析師,根據當季購物者搜索到的熱門關鍵詞,為商家提供推薦商品關鍵詞。面對上億的日訪問記錄,要求機器學習算法在幾天內給出更準確的推薦,否則就失去了有效性;或者出租車行駛在城市的道路上,大數據處理系統需要通過GPS反饋的信息和監控設備的實時路況信息,不斷給出更便捷的路徑選擇。這些都要求大數據的應用層能夠以最快的速度和最高的帶寬從存儲介質中獲取海量數據。另壹方面,海量數據存儲管理系統與傳統的數據庫管理系統或基於磁帶的備份系統之間也在發生數據交換。雖然這種交換可以離線完成,但是由於數據規模巨大,低數據傳輸帶寬也會降低數據傳輸效率,造成數據遷移瓶頸。因此,大數據的存儲和處理速度或帶寬是其性能的重要指標。
(2)大數據由於來源不同,具有數據多樣性的特點。
所謂多樣性是指數據結構的程度、存儲格式和存儲介質的多樣性。對於傳統數據庫來說,它們存儲的數據都是有規則格式的結構化數據。相反,大數據來源於日誌、歷史數據、用戶行為記錄等。,有些是結構化數據,更多的是半結構化或非結構化數據,這也是傳統數據庫存儲技術無法適應大數據存儲的重要原因之壹。所謂存儲格式,正是因為它的數據源不同,應用算法多種多樣,數據結構不同,格式多種多樣。比如有的是以文本文件格式存儲,有的是web文件,有的是序列化的比特流文件等等。存儲介質的多樣性指的是硬件的兼容性。大數據應用需要滿足不同的響應速度要求,因此其數據管理提倡分級管理機制。例如,實時或流數據的響應可以直接從內存或閃存(SSD)中訪問,而離線批處理可以建立在壹個有多個磁盤的存儲服務器上,有些可以存儲在傳統的SAN或NAS網絡存儲設備上,備份數據甚至可以存儲在磁帶機上。因此,大數據的存儲或處理系統必須兼容各種數據和軟硬件平臺,以適應各種應用算法或數據提取、轉換和加載(ETL)。
大數據存儲有三種典型的* * *技術:
首先是基於MPP架構的新型數據庫集群,聚焦行業大數據,采用無共享架構,通過列存儲、粗粒度索引等大數據處理技術支持分析應用,結合MPP架構高效的分布式計算模式。運行環境多為低成本PC服務器,具有高性能、高可擴展性的特點,在企業分析應用中得到了廣泛應用。
這種MPP產品可以有效支持PB級的結構化數據分析,這是傳統數據庫技術力所不及的。對於企業新壹代的數據倉庫和結構化數據分析,MPP數據庫是目前最好的選擇。
二是基於Hadoop的技術擴展和封裝,圍繞其衍生相關大數據技術,處理傳統關系數據庫難以處理的數據和場景,比如非結構化數據的存儲和計算,充分利用Hadoop開源的優勢。隨著相關技術的不斷進步,其應用場景會逐漸擴大。目前最典型的應用場景是通過擴展封裝Hadoop來支持互聯網大數據的存儲和分析。有幾十種NoSQL技術,它們被進壹步細分。Hadoop平臺更擅長非結構化和半結構化的數據處理,復雜的ETL流程,以及復雜的數據挖掘和計算模型。
三是壹體機大數據機,是專門為大數據的分析處理而設計的軟硬件結合的機器。它由壹組集成的服務器、存儲設備、操作系統、數據庫管理系統以及專門預裝和優化的數據查詢、處理和分析軟件組成。高性能壹體機大數據機具有良好的穩定性和縱向擴展性。
以上是邊肖分享的關於大數據存儲與應用的特點及技術路線分析的相關內容。更多信息可以關註環球常春藤分享更多幹貨。