結合Hadoop中國雲計算大會和CSDN大數據技術大會的精髓,往屆中國大數據技術大會(BDTC)已經發展成為國內頂級的技術盛會。從2008年的60人Hadoop沙龍到現在的千人技術盛宴,作為行業內極具實用價值的專業交流平臺,每壹屆中國大數據技術大會都忠實描繪了大數據領域的技術熱點,沈澱了行業的實踐經驗,見證了整個大數據生態系統技術的發展和演進。
2014 65438+2月12-14由中國計算機聯合會(CCF)主辦,CCF大數據專家委員會協辦,中國科學院計算研究所和CSDN***(大數據技術大會2065438+)聯合承辦。為期三天的大會旨在推動大數據技術在行業應用中的發展,擬設置大數據基礎設施、大數據生態系統、大數據技術、大數據應用、大數據互聯網金融技術、智能信息處理等多個主題論壇和行業峰會。由中國計算機聯合會主辦,CCF大數據專家委員會承辦,南京大學、復旦大學協辦的“2065438+2004第二屆CCF大數據學術大會”也將同期舉行,並與技術大會同享主題報告。
本次大會將邀請近100位國外大數據技術領域的頂級專家和壹線從業者,深入探討Hadoop、YARN、Spark、Tez、HBase、Kafka、OceanBase等開源軟件的最新進展,以及NoSQL/NewSQL、內存計算、流計算、圖計算技術的發展趨勢。OpenStack生態系統對大數據計算需求的思考,以及大數據下的可視化、機器學習/深度學習、商業智能、數據分析等最新行業應用,分享實際生產系統中的技術特點和實踐經驗。
大會前期特別梳理了歷屆大會的亮點,記錄中國大數據技術領域的發展歷程,並基於當前生態形勢對即將到來的BDTC 2014進行了展望:
追根溯源,理解大數據的六大技術變革
隨著大數據技術大會的發展,我們見證了中國大數據技術和應用時代的到來,也見證了整個大數據生態系統技術的發展和演進:
1.分布式計算資源-從網格計算到雲計算。回顧歷屆BDTC會議不難發現,從2009年開始,資源組織和調度的方式逐漸從跨域網格計算轉變為本地雲計算。如今,雲計算已經成為大數據資源保護的唯壹平臺。
2.數據存儲的變化——HDFS和NoSQL應運而生。隨著數據格式的日益多樣化,傳統的關系存儲已經不能滿足新時代的應用需求,HDFS、NoSQL等新技術應運而生,成為許多大型應用架構不可或缺的壹部分,推動了定制化計算機/服務器的發展,成為大數據生態系統中最熱門的技術之壹。
3.計算模式變了——Hadoop計算盒子成為主流。為了更好更便宜地支持其搜索服務,谷歌創建了Map/Reduce和GFS。受谷歌論文的啟發,前雅虎工程師Doug Cutting創建了壹個不同於高性能計算模型的Hadoop軟件生態系統,計算接近數據。Hadoop天生高貴,如今已經成為Apache基金會最“火熱”的開源項目,也是公認的大數據處理事實上的標準。Hadoop以低成本在分布式環境中提供海量數據處理能力。因此,Hadoop技術討論和實踐分享壹直是中國歷屆大數據技術大會最引人註目的特色之壹。
4.引入流計算技術——滿足應用程序的低延遲數據處理要求。隨著業務需求的擴展,大數據逐漸走出了線下批量處理的範疇。Storm、Kafka等充分發揮實時性、可擴展性、容錯性和靈活性的流處理框架,讓舊有的消息中間件技術復活了。成為歷屆BDTC的壹道亮麗風景。
5.內存計算初露端倪——新貴Spark敢於挑戰老牌。Spark源於美國加州大學伯克利分校AMPLab的集群計算平臺。是不可多得的全能選手,基於內存計算,從多次叠代批處理開始,擁抱數據倉庫、流處理、圖計算等多種計算範式。在短短的四年時間裏,Spark已經發展成為Apache Software Foundation的頂級項目,擁有30名專員,用戶包括IBM、亞馬遜和雅虎!、搜狐、百度、阿裏、騰訊等眾多知名公司,包括Spark SQL、Spark Streaming、MLlib、GraphX等眾多相關項目。毫無疑問,Spark已經站穩了腳跟。
6.關系數據庫技術的發展--new SQL改寫數據庫歷史。關系數據庫系統的研發並沒有停止,在橫向擴展、高可用、高性能方面也在不斷進步。實際應用最迫切需要MPP(海量並行處理)數據庫進行在線分析處理(OLAP),包括MPP數據庫學習和采用大數據領域的新技術,如多副本技術、列存儲技術等。另壹方面,面向聯機事務處理(OLTP)的數據庫正在向高性能發展,目標是高吞吐量和低延遲。技術發展趨勢包括全內存和無鎖。
基於帆船,見2014大數據生態圈發展。
時光荏苒,2014中國大數據技術大會如期舉行。科技飛速發展,2014我們能從BDTC身上學到什麽?在這裏我們不妨關註壹下當前的技術發展趨勢:
1.MapReduce已經走向沒落,YARN/Tez能否再創輝煌?對於Hadoop來說,2014是喜慶的壹年——EMC、微軟、Intel、Teradata、思科等眾多巨頭都加大了對Hadoop的投入。然而,對於許多組織來說,今年並不容易:由於基於MapReduce的實時缺點以及對更通用的大數據處理平臺的需求,Hadoop 2.0轉型勢在必行。那麽,在轉型中,組織會遇到什麽樣的挑戰?組織如何更好地利用YARN帶來的新特性?Hadoop未來的發展會有哪些重大變化?為此,BDTC 2014特別邀請了Apache Hadoop委員會、Apache Hadoop項目管理委員會(PMC)成員Uma Maheswara Rao G、Apache Hadoop委員劉壹、Bikas Saha(Apache Hadoop和Tez成員PMC)等國際頂級Hadoop專家,我們不妨面對面探討壹下。
2.時過境遷,Storm、Kafka等流計算框架的未來不確定。如果說MapReduce的慢給很多流式計算框架帶來了機會,那麽當Hadoop生態系統組件越來越成熟,Spark變得更容易使用的時候,會有什麽來滿足這些流式計算框架呢?在此,我們不妨借鑒壹下BDTC 2014近百場比賽的練習分享,或者與專家面對面交流。
3.火花,是顛覆還是補充?與Hadoop生態系統的兼容使得Spark的發展日新月異。但根據Sort Benchmark近日發布的排序結果,在海量(100TB)離線數據的排序中,與上屆冠軍Hadoop相比,Spark用不到十分之壹的機器和僅三分之壹的時間完成了相同數據量的排序。毫無疑問,目前的Spark並沒有止步於實時計算,目標直指通用大數據處理平臺。不過,結束Sharp,開始Spark SQL可能已經初具規模了。那麽,當Spark更加成熟,更加原生地支持離線計算的時候,誰將獲得開源大數據標準處理平臺的榮譽?在這裏我們壹起期待。
4.基礎設施層,將使用什麽來升級我們的網絡?如今,網絡已經成為許多大數據處理平臺的目標。例如,為了克服網絡瓶頸,Spark用新的基於Netty的網絡模塊替換了原來的NIO網絡模塊,從而提高了網絡帶寬的利用率。那麽,如何在基礎設施層面克服網絡的瓶頸呢?直接使用更高效的網絡設備,比如Infiniband,可以實現多大的性能提升?構建更加智能網絡,通過每個計算階段自適應調整拆分/合並階段的數據傳輸需求,不僅提高了速度,也提高了利用率。在BDTC 2014,我們可以從Infiniband/RDMA技術和應用講座,以及幾次SDN戰役中學習到寶貴的經驗。
5.數據挖掘的靈魂-機器學習。近年來,機器學習領域的人才爭奪戰變得激烈,像Google、IBM、微軟、百度、阿裏、騰訊等公司在機器學習領域的投入越來越多,包括芯片設計、系統架構(異構計算)、軟件系統、模型算法和深度應用。大數據標誌著壹個新時代的到來。PB數據讓人坐擁金山。然而,沒有智能算法這個機器學習的靈魂,價值的提取無疑成為了泡影。在這壹環節中,我們還為大家準備了幾場機器學習相關的分享會,等待您的參與。
除了技術分享,2014第二屆CCF大數據學術大會也將同期舉行,與技術大會壹起享受主題報告。屆時,我們還可以從學術領域獲得許多最新的科研成果。
以上是邊肖為大家分享的關於中國大數據六大技術變革的相關內容。更多信息可以關註環球常春藤分享更多幹貨。