隨著信息技術的飛速發展,數據開始爆炸式增長。大數據中的數據不再以幾個GB或TB來衡量,而是以Pb (1,000 t)、EB(1萬t)或ZB (1億t)來衡量。
2.多樣性
多樣性主要體現在三個方面:數據源多、數據類型多、數據之間的相關性強。
數據來源很多,企業面臨的傳統數據主要是交易數據。互聯網和物聯網的發展帶來了各種來源的數據,如社交網站和傳感器。
由於數據來自不同的應用系統和不同的設備,決定了大數據形式的多樣性。壹般可分為三類:壹是結構化數據,如財務系統數據、信息管理系統數據、醫療系統數據等。,其特點是數據間因果關系強;二是非結構化數據,如視頻、圖片、音頻等。,特點是數據之間沒有因果關系;第三,半結構化數據,如HTML文檔、郵件、網頁等。,特點是數據之間的因果關系弱。
數據類型很多,非結構化數據是主要數據。在傳統企業中,數據是以表格的形式保存的。而70%-85%的大數據是圖片、音頻、視頻、web日誌、鏈接信息等非結構化、半結構化的數據。
數據和頻繁的交互有很強的相關性,比如遊客在旅遊過程中上傳的照片和日誌,和遊客的位置、行程等信息有很強的相關性。
3.高速的
這是大數據區別於傳統數據挖掘的最顯著特征。大數據與海量數據的重要區別在於兩個方面:壹方面,大數據的數據規模更大;另壹方面,大數據對處理數據的響應速度有更嚴格的要求。實時分析代替批量分析,數據輸入、處理、丟棄都是立竿見影,幾乎沒有延遲。數據的增長速度和處理速度是大數據高速的重要體現。
4.價值
雖然企業有大量的數據,但只有極小壹部分是有價值的。大數據背後隱藏的價值巨大。因為大數據中有價值的數據比例很小,大數據的真正價值體現在大量各種類型的不相關數據中。挖掘出對未來趨勢和模式預測分析有價值的數據,通過機器學習方法、人工智能方法或數據挖掘方法進行深度分析,應用到農業、金融、醫療等領域,以期創造更大的價值。