目前企業提供的大數據崗位,根據工作內容的要求,可以分為以下幾類:
①初級分析,包括業務數據分析師和業務數據分析師。②挖掘算法,包括數據挖掘工程師、機器學習工程師、深度學習工程師、算法工程師、AI工程師、數據科學家等。③開發運營類,包括大數據開發工程師、大數據架構工程師、大數據運維工程師、數據可視化工程師、數據采集工程師、數據庫管理員等。④產品運營類,包括數據運營經理、數據產品經理、數據項目經理、大數據銷售。
大數據本身是壹個抽象的概念。壹般來說,大數據是指在有限的時間內,常規軟件工具無法獲取、存儲、管理和處理的數據集合。
目前業內對大數據沒有統壹的定義,但普遍認為大數據具有體量、速度、多樣性和價值四大特征,簡稱“4V”,即數據量巨大、數據速度快、數據類型多樣、數據價值密度低,如圖1所示。下面簡要描述了每個功能。
1)體量:代表大數據的數據體量巨大。
數據收集的規模壹直在擴大,從GB到TB,再到PB。近年來,數據量甚至開始由EB和ZB統計。
比如壹個中等城市的視頻監控信息,壹天可以達到幾十TB的數據量。百度首頁導航每天需要提供1-5PB以上的數據。這些數據如果打印出來,將超過5000億張A4紙。圖2顯示了互聯網每分鐘產生的各種數據量。
2)速度:代表大數據的數據生成、處理和分析速度持續加快。
加速的原因是數據創建的實時特性,以及將流數據結合到業務流程和決策流程中的需要。數據處理速度快,處理方式已經開始從批處理向流處理轉變。
業界對大數據的處理能力有個名字——“1第二定律”,即可以從各類數據中快速獲取高價值信息。大數據的快速處理能力充分體現了其與傳統數據處理技術的本質區別。
3)多樣性:代表大數據的數據類型很多。
傳統IT行業產生和處理的數據類型比較單壹,大部分是結構化數據。隨著傳感器、智能設備、社交網絡、物聯網、移動計算和在線廣告等新渠道和新技術的出現,產生了無數類型的數據。
現在的數據類型不僅僅是格式化數據,還有半結構化或者非結構化的數據,比如XML、郵件、博客、即時消息、視頻、照片、點擊流、日誌文件等等。企業需要整合、存儲和分析來自復雜的傳統和非傳統信息源的數據,包括內部和外部數據。
4)價值:指大數據的數據價值密度低。
由於大數據量越來越大,單位數據的價值密度在降低,但數據的整體價值在增加。以監控視頻為例。在壹個小時的視頻中,有用的數據可能只有壹兩秒鐘,但會非常重要。現在很多專家已經把大數據等同於黃金和石油,也就是說大數據蘊含著無限的商業價值。
通過對大數據的處理,找出其潛在的商業價值,從而產生巨大的商業利潤。