概念:用常規數據庫工具難以獲取、存儲、管理和分析的數據集。
特點:
1,數據量大:起始單位是PB。
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
2.有許多類型:
結構化、板塊結構化、非結構化:博客、音頻、視頻、圖片、地理位置等信息混雜在壹起。
3.低值密度:
獲取數據的價值猶如淘金。
4、速度快,老化程度高;
數據呈指數級增長,對時效性要求很高。比如搜索引擎要求用戶可以查詢幾分鐘前的新聞,個性化推薦算法盡可能完成實時推薦。
5、永遠在線:
大數據時代的數據永遠在線,隨時可以應用計算,這也是區別於傳統數據的最大特點。
大數據從何而來?
1,搜索引擎服務
百度的數據量是1000PB,每天響應來自138個國家的數十億次請求,每天新增10TB。
2.電子商務
3.社交網絡
QQ:8.5億用戶,4400臺服務器用於存儲用戶產生的信息,壓縮數據100PB,每天增加200-300 TB。
4.音頻和視頻在線服務
5.個人數據服務
6.地理信息數據
7.傳統企業
8.公共機構
智慧城市:攝像頭拍攝的畫面,1080P高清網絡攝像頭壹個月產生1.8TB的數據,較大城市50萬個攝像頭,壹個月產生3PB的數據。
醫療,中國氣象系統。
大數據的存儲和計算模式
存儲:
問題:數據量大,類型復雜(結構化、非結構化和半結構化)
關鍵技術:
1、分布式文件系統(高效元數據管理技術、系統彈性擴展技術、存儲層次內優化、應用和負載的存儲優化技術、存儲設備的優化技術)
2.分布式數據庫
事務型數據庫技術:NoSQL:(支持非關系型數據庫,具有多節點劃分和復制數據的能力,用最終壹致性機制解決並發讀取操作和控制問題,充分利用分布式索引和內存提高性能)以BigTable、HBase、MongoDB、Dynamo為代表。
分析數據庫技術:Hive,Impala
3.大數據索引和查詢技術
4.實時流式大數據存儲和處理技術
計算:
問題:數據結構特點、並行計算(Hadoop\基於分布式文件\ Spark基於分布式內存緩存)、數據采集(批處理\流處理)、數據處理類型(傳統查詢\數據挖掘分析計算)、實時響應性能、叠代計算、數據關聯(先map後reduce)。
關鍵技術:
1,大數據查詢分析計算模式及技術:HBase,Hive,Cassandra,Impala。
2.批量計算:Hadoop MapReduce,Spark。
3.流式計算:風暴,火花四射
4.圖形計算:Giraph,GraphX
5.內存計算:Spark,HANA(SAP公司的全內存分布式數據庫系統),Dremel。
應用領域
1,智慧醫療(臨床數據、公共衛生數據、移動醫療健康數據)((* *享受疾病案例、基因分類參考)
2、智慧農業(主要指根據商業需求生產農產品,減少蔬菜殘留傷害農民的概率)
3.金融行業:
精準營銷:根據可用性和習慣進行銷售
風險管控:根據用戶的交易流程實施反欺詐。
決策支持:抵押貸款,實施產業信貸風險控制。
提高效率:加快內部數據處理。
產品設計:根據客戶的投資行為,設計滿足客戶需求的金融產品。
4.零售業(針對零售商:精準營銷(降低營銷成本,擴大營銷量);對於制造商:減少產品過剩)
5.電子商務行業
6.電子政務
希望對妳有幫助!~