數據采集:ETL工具負責將分布式、異構數據源中的數據,如關系數據、平面數據文件等提取到臨時中間層,進行清洗、轉換和集成,最終加載到數據倉庫或數據集市中,成為聯機分析處理和數據挖掘的基礎。
數據訪問:關系數據庫、NOSQL、SQL等。
基礎設施:雲存儲、分布式文件存儲等。
數據處理:NLP (NaturalLanguageProcessing)是研究人機交互的語言問題的學科。處理自然語言的關鍵是讓計算機“理解”自然語言,所以自然語言處理也叫NLU(natural language Understanding),也叫計算語言學。壹方面是語言信息處理的壹個分支,另壹方面是人工智能(AI)的核心課題之壹。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測和殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法和聚類法。
數據挖掘:分類、估計、預測、親和分組或關聯規則、聚類、描述和可視化、描述和可視化、復雜數據類型挖掘(文本、Web、圖形圖像、視頻、音頻等。).
模型預測:預測模型、機器學習、建模與仿真。
呈現的結果:雲計算、標簽雲、關系圖等。
要理解大數據的概念,首先要從“大”說起,大是指數據的大小。大數據壹般是指10TB(1TB = 1024 GB)以上的數據量。大數據不同於以往的海量數據,其基本特征可以用四個V(體積、多樣性、價值和速度)來概括,即大體積、多樣性、低價值密度和高速度。
第壹,數據量巨大。從TB級跳到PB級。
第二,數據的類型很多,比如網絡日誌、視頻、圖片、地理信息等等。
第三,價值密度低。以視頻為例,在持續監控的過程中,可能有用的數據只有壹兩秒鐘。
第四,處理速度快。1第二定律。最後,這壹點也與傳統的數據挖掘技術有著本質的區別。物聯網,雲計算,移動互聯網,車聯網,手機,平板電腦,PC,遍布全球的各種傳感器,都是數據來源或者承載方式。
大數據技術是指從各類海量數據中快速獲取有價值信息的技術。解決大數據問題的核心是大數據技術。目前,“大數據”不僅僅指數據本身的規模,還包括收集數據的工具、平臺和數據分析系統。大數據研發的目的是發展大數據技術並應用於相關領域,通過解決龐大的數據處理問題,推動其突破性發展。所以大數據時代帶來的挑戰不僅僅體現在如何處理巨量。