目前來看,兩者的主要區別還處在以下幾點:
壹: 結構化數據和非結構化數據
傳統行業更多的是結構化數據, 即行數據,存儲在數據庫裏,可以用二維表結構來邏輯表達實現的數據,像以應用oracle、Sql Server等數據庫的制造型企業的ERP系統。而互聯網行業更多的是非結構化數據,就是不能以二維形態描述的,例如所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等,像是醫療影像系統、教育視頻點播、視頻監控、國土GIS、設計院、文件服務器(PDM/FTP)、媒體資源管理等具體應用。
二:數據的體量
互聯網行業海量的數據,由於互聯網行業的特點,每時每刻都會產生海量的數據,它的數據往往是PB級的,1個PB有多大呢?它相當於2的50次方個字節。如果妳對此沒有概念,那麽簡單來說,《史記》約有52萬多漢字,1個PB能夠存儲至少10億部《史記》,以百度、騰訊、阿裏為代表的企業。傳統的壹個生產制造工廠三個月制造的數據也不到100G。這是天大的壹個差別。
三:看待數據的方式及數據分析目的不同
互聯網行業會對這些海量的數據做數據分析,挖掘,無論是過去的數據還是即時的數據,數據不再是靜止和陳舊的,任何被遺忘在服務器中的數據,都可能被重新利用,從而發現其中與我們、與行為、與現象的相關性,比如每逢“雙十壹”,“剁手黨”都面臨痛苦的抉擇:打折的商品實在太多,買什麽才好呢?最終壹不小心,信用卡刷爆,買了壹大堆自己不需要的商品,只得含淚吃半年的“康師傅”…
谷歌公司每天都會收到來自全球超過30億條的搜索指令,經過多年數據的累計,谷歌公司建立了“咳嗽”,“發熱”等搜索關鍵字與流感地區的聯系,於是在2009年谷歌成功地在美國預測了冬季流感的傳播,並且精確到地區和州等等。而傳統行業則不會過多去關註過去的數據,壹般月底會盤點,出壹些財務的數據分析報表,歷史的數據會存放於備份庫裏,有問題才會去查找。
四:數據查找的效率及安全性
互聯網行業往往存儲著用戶的個人行為信息,他要求保證絕對的安全或者準確性,比如12306,每到年底,面臨數億人遷徙的購票壓力,在臨近春節購票高峰峰值的時候,它的要求絕對是用戶打開網頁的速度可以慢壹點沒關系,但是要保證用戶購票信息的絕對安全。如果用戶付款購買了壹張高鐵動車票,妳那邊沒收到錢款,那面對著上億人的購票錢款,這個絕對是要出大問題的。
而傳統行業沒有那麽大的數據量和訪問量,往往解決好並發,死鎖等等問題,保證系統的高可靠性和穩定性,偶爾也會發生丟失壹條采購記錄或者生產記錄的問題,由於壹般用戶都會除了系統錄入以外,還會紙質的記錄,那麽這個也是可以被容忍的
五:大數據技術快速獲取有價值的信息
基於以上互聯網行業的特點,當數據量不斷增大時,也隨之帶來了壹系列的問題。
比如假設解決某壹問題有算法A 和算法B。在小量數據中運行時,算法A的結果明顯優於算法B。也就是說,就算法本身而言,算法A能夠帶來更好的結果;然而,人們發現,當數據量不斷增大時,算法B在大量數據中運行的結果優於算法A在小量數據中運行的結果。這壹發現給計算機學科及計算機衍生學科都帶來了裏程碑式的啟示:當數據越來越大時,數據本身(而不是研究數據所使用的算法和模型)保證了數據分析結果的有效性。即便缺乏精準的算法,只要擁有足夠多的數據,也能得到接近事實的結論。
由於能夠處理多種數據結構,大數據能夠在最大程度上利用互聯網上記錄的人類行為數據進行分析。大數據出現之前,計算機所能夠處理的數據都需要前期進行結構化處理,並記錄在相應的數據庫中。但大數據技術對於數據結構的要求大大降低,互聯網上人們留下的社交信息、地理位置信息、行為習慣信息、偏好信息等各種維度的信息都可以實時處理,立體完整地勾勒出每壹個個體的各種特征。
壹個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用於分析時會花費過多時間和金錢,大數據分析常和雲計算聯系到壹起,因為實時的大型數據集分析需要像MapReduce壹樣的框架來向數十、數百或甚至數千的電腦分配工作。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。簡單來說,大數據需要Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+……Others這樣的分布式存儲,分布式處理大數據架構,而不僅僅是傳統的磁盤陣列數據存儲處理方式。
互聯網極大地改變了人們的生活,大量、高速、多變的信息每天都圍繞在人們身邊,我們需要更好的處理方式,去應對這種隨時隨地的變化。大數據技術將深遠地改變互聯網世界,改變整個生產生活的方式。隨著技術的發展,大數據分析正在變得越來越容易,成本也越來越低,而且相比以前能更容易加速對業務的理解,越來越多的人開始進入大數據與數據分析行列,準備在這裏幹出自己的壹番事業。
編輯於?2019-10-21