目前,兩者的主要區別如下:
壹:結構化數據和非結構化數據
傳統行業更多的是結構化數據,即行數據,存儲在數據庫中,可以用二維表結構進行邏輯表達,比如制造企業的ERP系統使用oracle、Sql Server等數據庫。互聯網行業更多的是非結構化數據,無法用二維描述,比如所有格式的辦公文檔、文本、圖片、XML、HTML、各種報表、圖像和音視頻信息等等,比如醫學影像系統、教育視頻點播、視頻監控、土地GIS、設計院、文件服務器(PDM/FTP)、媒體資源管理等具體應用。
第二,數據量
互聯網行業的海量數據,由於互聯網行業的特點,每時每刻都會產生海量數據,其數據往往是PB級的。1 PB有多大?它相當於字節的2的50次方。如果妳對此毫無概念,簡單來說,《史記》大概有52萬漢字,1 PB至少可以存儲1億條歷史記錄,以百度、騰訊、阿裏為代表。壹個傳統制造工廠三個月生產出來的數據也不到100G。這是壹個很大的區別。
第三,看數據的方式和數據分析的目的不同。
互聯網行業會對這些海量數據進行分析和挖掘。無論是過去的數據還是實時的數據,數據都不再是靜態的、過時的。任何遺忘在服務器裏的數據都有可能被重用,從而找出它與我們、行為與現象之間的關聯。比如每個“雙十壹”、“剁手黨”都面臨著壹個痛苦的選擇:打折商品太多,買什麽好?最後不小心刷爆了信用卡,買了很多不需要的商品,不得不含淚吃了康師傅半年…
每天,谷歌都會收到來自世界各地的超過30億條搜索指令。經過多年的數據積累,谷歌已經在“咳嗽”、“發燒”等搜索關鍵詞和流感地區之間建立了聯系,所以在2009年,谷歌成功預測了美國冬季流感的傳播,而且精確到了地區和州。而傳統行業則不會太在意過去的數據。壹般他們會在月底盤點,出壹些財務數據分析報告。歷史數據會存儲在備份庫中,只有出現問題時才會被搜索。
第四,數據搜索的效率和安全性
互聯網行業經常會存儲用戶的個人行為信息,而且要求絕對的安全性或準確性,比如12306。每年年底都面臨上億人遷徙買票的壓力。臨近春運購票高峰時,它的要求是用戶可以慢慢打開網頁。沒關系,但是要保證用戶購票信息的絕對安全。如果用戶掏錢買了壹張高速火車票,妳沒有收到錢,那麽面對上億人的錢,這肯定是個大問題。
傳統行業沒有這麽大的數據量和訪問量,往往會解決並發、死鎖等問題,保證系統的高可靠性和穩定性。偶爾會丟失壹個購買記錄或者生產記錄,因為普通用戶不僅會進入系統,還會做紙質記錄,所以這也是可以容忍的。
五:大數據技術可以快速獲取有價值的信息。
基於互聯網行業的上述特點,當數據量越來越大的時候,也帶來了壹系列的問題。
比如,假設有算法A和算法B來解決某個問題。在小數據量運行時,算法A的結果明顯優於算法b,也就是說,就算法本身而言,算法A能帶來更好的結果;但是發現當數據量越來越大時,算法B在大量數據中運行的結果要優於算法A在少量數據中運行的結果。這壹發現給計算機科學和計算機衍生科學都帶來了裏程碑式的啟示:當數據越來越大時,數據本身(而不是用來研究數據的算法和模型)保證了數據分析結果的有效性。即使沒有精確的算法,只要有足夠的數據,也能得到接近事實的結論。
由於可以處理多種數據結構,大數據可以最大限度地利用互聯網上記錄的人類行為數據進行分析。在大數據出現之前,所有計算機能夠處理的數據都需要在前期進行結構化,並記錄在相應的數據庫中。而大數據技術對數據結構的要求大大降低。人們在互聯網上留下的各種維度的信息,如社交信息、地理位置信息、行為習慣信息、偏好信息等,都可以實時處理,立體完整地勾勒出每個個體的各種特征。
壹個公司創建的大量非結構化和半結構化數據,在下載到關系數據庫進行分析時,會花費太多的時間和金錢。大數據分析往往與雲計算聯系在壹起,因為實時的大規模數據集分析需要MapReduce這樣的框架將工作分配到幾十臺、幾百臺甚至幾千臺計算機上。簡而言之,從各類數據中快速獲取有價值信息的能力就是大數據技術。簡單來說,大數據需要分布式存儲比如Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+...+……其他,以分布式的方式處理大數據,而不僅僅是傳統的磁盤陣列數據存儲處理方式。
互聯網極大地改變了人們的生活,大量高速多變的信息每天圍繞著人們。我們需要更好的方法隨時隨地應對這種變化。大數據技術將深刻改變互聯網世界,改變整個生產生活方式。隨著技術的發展,大數據分析越來越容易,越來越便宜,比以前更容易加速對業務的理解。越來越多的人開始進入大數據和數據分析的行列,準備在這裏做自己的事業。
編輯者?2019-10-21