數據流的區別特征

與傳統的關系數據模式區別

B.Babcock等[90]認為數據流模式在以下幾個方面不同於傳統的關系數據模式：

1. 數據聯機到達；

2. 處理系統無法控制所處理的數據的到達順序；

3. 數據可能是無限多的；

4. 由於數據量的龐大，數據流中的元素被處理後將被拋棄或存檔（archive）。以後再想獲取這些數據將會很困難，除非將數據存儲在內存中，但由於內存大小通常遠遠小於數據流數據的數量，因此實際上通常只能在數據第壹次到達時獲取數據。

三個特點

我們認為，當前所研究的數據流計算之所以不同於傳統的計算模式，關鍵在於這些數據流數據本身具有如下三個特點：

數據的到達—快速

這意味著短時間內可能會有大量的輸入數據需要處理。這對處理器和輸入輸出設備來說都是壹個較大的負擔，因此對數據流的處理應盡可能簡單。

數據的範圍—廣域

這是指數據屬性（維）的取值範圍非常大，可能取的值非常多，如地域、手機號碼、人、網絡節點等。這才是導致數據流無法在內存或硬盤中存儲的主要原因。如果維度小，即使到來的數據量很大，也可以在較小的存儲器中保存這些數據。例如，對於無線通信網來說，同樣的100萬條通話記錄，如果只有1000個用戶，那麽使用1000個存儲單位就可以保存足夠多和足夠精確的數據來回答“某壹用戶的累計通話時間有多長”的問題；而如果***有100000個用戶，要保存這些信息，就需要100000個存儲單位。數據流數據的屬性大多與地理信息、IP地址、手機號碼等有關，而且往往與時間聯系在壹起。這時，數據的維度遠遠超過了內存和硬盤容量，這意味著系統無法完整保存這些信息，通常只能在數據到達的時候存取數據壹次。

數據到達的時間—持續

數據的持續到達意味著數據量可能是無限的。而且，對數據進行處理的結果不會是最終的結果，因為數據還會不斷地到達。因此，對數據流的查詢的結果往往不是壹次性而是持續的，即隨著底層數據的到達而不斷返回最新的結果。

以上數據流的特點決定了數據流處理的特點壹次存取，持續處理，有限存儲，近似結果，快速響應。

近似結果是在前三個條件限制下產生的必然結果。由於只能存取數據壹次，而且只有相對較小的有限空間存儲數據，因此產生精確的計算結果通常是不可能的。而將對結果的要求從過去的“精確”改為“近似”後，實現數據流查詢的快速響應也就成為了可能。

上一篇:捉野雞絆腳套好還是脖套好

下一篇:方形創意插畫-服裝設計中常見的插畫的藝術風格有哪些？可以詳細說說嗎？