互聯網行業的數據分析和傳統行業有哪些異同？

說到數據分析，其實隨著近年來大數據的發展，數據被認為是物理和信息融合中的關鍵技術和核心引擎。各行各業都在馬不停蹄、轟轟烈烈地進入大數據時代。傳統行業和互聯網行業的邊界開始發展交叉、互補和滲透。傳統制造業不再是生產轉售的模式，更多的是傾聽市場的聲音。市場需要什麽，消費終端就會相應地賦予它更多的多樣化和個性化。

目前，兩者的主要區別如下:

壹:結構化數據和非結構化數據

傳統行業更多的是結構化數據，即行數據，存儲在數據庫中，可以用二維表結構進行邏輯表達，比如制造企業的ERP系統使用oracle、Sql Server等數據庫。互聯網行業更多的是非結構化數據，無法用二維描述，比如所有格式的辦公文檔、文本、圖片、XML、HTML、各種報表、圖像和音視頻信息等等，比如醫學影像系統、教育視頻點播、視頻監控、土地GIS、設計院、文件服務器(PDM/FTP)、媒體資源管理等具體應用。

第二，數據量

互聯網行業的海量數據，由於互聯網行業的特點，每時每刻都會產生海量數據，其數據往往是PB級的。1 PB有多大？它相當於字節的2的50次方。如果妳對此毫無概念，簡單來說，《史記》大概有52萬漢字，1 PB至少可以存儲1億條歷史記錄，以百度、騰訊、阿裏為代表。壹個傳統制造工廠三個月生產出來的數據也不到100G。這是壹個很大的區別。

第三，看數據的方式和數據分析的目的不同。

互聯網行業會對這些海量數據進行分析和挖掘。無論是過去的數據還是實時的數據，數據都不再是靜態的、過時的。任何遺忘在服務器裏的數據都有可能被重用，從而找出它與我們、行為與現象之間的關聯。比如每個“雙十壹”、“剁手黨”都面臨著壹個痛苦的選擇:打折商品太多，買什麽好？最後不小心刷爆了信用卡，買了很多不需要的商品，不得不含淚吃了康師傅半年…

每天，谷歌都會收到來自世界各地的超過30億條搜索指令。經過多年的數據積累，谷歌已經在“咳嗽”、“發燒”等搜索關鍵詞和流感地區之間建立了聯系，所以在2009年，谷歌成功預測了美國冬季流感的傳播，而且精確到了地區和州。而傳統行業則不會太在意過去的數據。壹般他們會在月底盤點，出壹些財務數據分析報告。歷史數據會存儲在備份庫中，只有出現問題時才會被搜索。

第四，數據搜索的效率和安全性

互聯網行業經常會存儲用戶的個人行為信息，而且要求絕對的安全性或準確性，比如12306。每年年底都面臨上億人遷徙買票的壓力。臨近春運購票高峰時，它的要求是用戶可以慢慢打開網頁。沒關系，但是要保證用戶購票信息的絕對安全。如果用戶掏錢買了壹張高速火車票，妳沒有收到錢，那麽面對上億人的錢，這肯定是個大問題。

傳統行業沒有這麽大的數據量和訪問量，往往會解決並發、死鎖等問題，保證系統的高可靠性和穩定性。偶爾會丟失壹個購買記錄或者生產記錄，因為普通用戶不僅會進入系統，還會做紙質記錄，所以這也是可以容忍的。

五:大數據技術可以快速獲取有價值的信息。

基於互聯網行業的上述特點，當數據量越來越大的時候，也帶來了壹系列的問題。

比如，假設有算法A和算法B來解決某個問題。在小數據量運行時，算法A的結果明顯優於算法b，也就是說，就算法本身而言，算法A能帶來更好的結果；但是發現當數據量越來越大時，算法B在大量數據中運行的結果要優於算法A在少量數據中運行的結果。這壹發現給計算機科學和計算機衍生科學都帶來了裏程碑式的啟示:當數據越來越大時，數據本身(而不是用來研究數據的算法和模型)保證了數據分析結果的有效性。即使沒有精確的算法，只要有足夠的數據，也能得到接近事實的結論。

由於可以處理多種數據結構，大數據可以最大限度地利用互聯網上記錄的人類行為數據進行分析。在大數據出現之前，所有計算機能夠處理的數據都需要在前期進行結構化，並記錄在相應的數據庫中。而大數據技術對數據結構的要求大大降低。人們在互聯網上留下的各種維度的信息，如社交信息、地理位置信息、行為習慣信息、偏好信息等，都可以實時處理，立體完整地勾勒出每個個體的各種特征。

壹個公司創建的大量非結構化和半結構化數據，在下載到關系數據庫進行分析時，會花費太多的時間和金錢。大數據分析往往與雲計算聯系在壹起，因為實時的大規模數據集分析需要MapReduce這樣的框架將工作分配到幾十臺、幾百臺甚至幾千臺計算機上。簡而言之，從各類數據中快速獲取有價值信息的能力就是大數據技術。簡單來說，大數據需要分布式存儲比如Hadoop=HDFS(文件系統，數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+...+……其他，以分布式的方式處理大數據，而不僅僅是傳統的磁盤陣列數據存儲處理方式。

互聯網極大地改變了人們的生活，大量高速多變的信息每天圍繞著人們。我們需要更好的方法隨時隨地應對這種變化。大數據技術將深刻改變互聯網世界，改變整個生產生活方式。隨著技術的發展，大數據分析越來越容易，越來越便宜，比以前更容易加速對業務的理解。越來越多的人開始進入大數據和數據分析的行列，準備在這裏做自己的事業。

編輯者？2019-10-21

上一篇:中山的傳統文化元素有哪些,中山傳統文化特色

下一篇:從數據角度看痔瘡的內鏡下膠圈套紮治療