在實際生產環境中,要想有效利用大數據,首先要對大數據技術的各項技術指標有壹個整體的認知能力,這就涉及到如何定義準確性、精細度、完備性、穩定性和速度。這些指標對於實現大數據的數據價值也有直接意義。
所謂“準”,涉及到大數據中的很多元素,包括數據關聯描述、數據緯度、語義分析、算法設計等等。簡單來說,數據量越大,數據的緯度越高,問題描述越清晰,準確率就會越高。當然,大數據是否“準確”也與算法設計有直接關系。
“細”和“全”分別代表大數據的深度和廣度。“細”主要體現在數據挖掘的深度能否滿足應用的需求,能否通過數據挖掘發現新的價值。深度學習在“精細”方面不斷前進,“精細”對計算能力的要求更高。要做到“全”,首先要把重點放在數據采集上,數據的采集也直接關系到物聯網的建設。
“穩”和“快”是衡量大數據可用性的重要指標。“穩”不僅代表穩定的系統運行能力,也代表結果的壹致表現,“快”的定義直接影響整個系統的運行效率。要穩首先要用不同的方式處理不同類型的數據,而要快就涉及到計算方法。比如在大數據平臺的采用上,Spark很多時候明顯比Hadoop快。
最後,大數據系統能否做到準確、詳細、完整、穩定、快速,跟很多因素有關。除了用數據集進行驗證,另壹種判斷方式是實施落地應用實踐,這也可以持續改進大數據平臺的設計。