結構化數據:可以用數據或統壹的結構來表示,人們稱之為結構化數據,如數字、符號等。傳統的關系數據模型行數據存儲在數據庫中,可以用二維表結構表示。
半結構化數據:所謂半結構化數據是介於完全結構化數據(如關系數據庫和面向對象數據庫中的數據)和完全非結構化數據(如聲音和圖像文件)之間的數據,XML和HTML文檔屬於半結構化數據。壹般都是自描述,數據的結構和內容混在壹起,沒有明顯的區分。
非結構化數據:
非結構化數據庫是指字段長度可變的數據庫,每隔壹個字段的記錄可以由可重復或不可重復的子字段組成。它不僅可以處理結構化數據(如數字、符號等信息),而且更適合處理非結構化數據(全文、圖像、聲音、電影、超媒體等信息)。
認知大數據
想要系統地理解大數據,就必須對其進行全面細致的分解,從三個層面入手:
第壹個層次是理論,理論是認知的必由之路,是被廣泛認同和傳播的基線。在這裏,我們可以從大數據的特征定義來理解行業對大數據的整體描述和定性;從大數據價值的討論,深入剖析大數據的珍貴;洞察大數據發展趨勢;本文從大數據隱私這壹特殊而重要的視角來審視人與數據的長期博弈。
第二個層面是技術,是在技術室體現大數據價值的手段和向前推進的技術。這裏從雲計算、分布式處理技術、存儲技術、傳感技術的發展,闡述大數據從采集、處理、存儲到結構形成的全過程。
第三個層次是實踐,實踐是大數據的終極價值體現。在這裏,我們從互聯網的大數據、企業的大數據、個人的大數據等方面來描述大數據已經展現的美好場景和將要實現的藍圖。