計算能力是有價值的:數據和算法需要更多的計算支持。
眾所周知,在人工智能發展的三大要素中,無論是數據還是算法都離不開計算能力的支撐,計算能力已經成為人工智能發展的關鍵要素。
根據IDC發布的《數據時代2025》報告,201zb = 100bb)的全球數據量到2025年將增長到175ZB,其中,2025年中國將使用48.6ZB數據量和27.6zb數據量。
根據賽迪顧問的數據,到2030年,原始數據生產產業規模將占經濟總量的15%,中國數據總量將超過4YB,占全球數據總量的30%。數據資源已經成為壹個關鍵的生產要素。更多的行業利用物聯網、工業互聯網、電子商務等結構化或非結構化的數據資源提取有價值的信息,海量數據的處理和分析將對計算能力產生巨大需求。
從算法上來說,高級模型的參數和復雜性呈指數級增長。Open AI之前發表的壹項研究顯示,每三到四個月,訓練這些大型模型所需的計算資源就會翻倍(相比之下,摩爾定律的翻倍周期為18個月)。從2012到2018,深度學習前沿研究所需的計算資源增長了30萬倍。
到2020年,深度學習模型對計算能力的需求將達到每天數十億次。2020年2月,微軟發布了最新的智能感知計算模型圖靈-NLG,654.38+07.5億的高參數,以654.38+025的POPAI計算能力完成單次訓練需要壹天以上的時間。隨後,OpenAI提出GPT-3模型,參數達到654.38+075億,計算能力消耗達到3640 PetaFLOPS/s-day。GPT-3問世不到壹年,壹個更大更復雜的語言模型,即參數超過壹萬億的語言模型SwitchTransformer問世了。
可見,海量數據的快速增長和更復雜的模型正在給計算能力帶來更大的挑戰。如果計算能力不能快速提升,我們將不得不面臨壹個糟糕的局面:當大規模數據用於人工智能訓練學習時,數據量將超過內存和處理器的上限,整個深度學習和訓練過程將變得極其漫長,甚至連最基本的人工智能都根本無法實現。
效率價格更高:環境和實際成本高,急需提高效率。
在計算行業,有壹種假設是“數字處理會變得越來越便宜”。但是斯坦福人工智能研究所副所長克裏斯托弗?曼寧表示,對於現有的人工智能應用來說,情況並非如此,尤其是因為研究復雜性和競爭力的不斷增加,這使得前沿模型的培訓成本不斷上升。
根據馬薩諸塞大學阿姆赫斯特分校研究人員發表的研究論文,以幾種常見的大型AI模型的訓練周期為例,發現該過程可以排放超過62.6萬磅的二氧化碳,幾乎是普通汽車生命周期排放量的5倍(包括汽車本身的制造過程)。
比如在自然語言處理方面,研究人員研究了該領域性能提升最大的四個模型:Transformer、ELMo、BERT和GPT-2。研究人員對單個GPU進行了至少壹天的訓練,以測量其功耗。然後,利用模型原始論文中列出的幾個指標,計算整個過程消耗的總能量。
結果表明,訓練計算環境的成本與模型大小成正比,然後當使用額外的調整步驟來提高模型的最終精度時,成本會爆炸式地增加。尤其是調整神經網絡的架構來完成盡可能詳細的實驗,優化模型的過程,相關成本非常高,幾乎沒有性能增益。伯特模型的碳足跡約為1400磅二氧化碳,相當於壹個人飛美國來回的排放量。
此外,研究人員指出,這些數字只是基礎,因為訓練單個模型所需的工作仍然相對較少,大多數研究人員會從零開始開發新模型,或者在實踐中為現有模型改變數據集,這將需要更多的時間進行訓練和調整,換句話說,這將產生更高的能耗。根據計算,至少需要4789個模型在6個月內接受訓練,才能建立和測試最終有價值的模型,換算成碳排放量,超過7.8萬磅。隨著AI計算能力的提升,這個問題會更加嚴重。
根據Synced最近的壹份報告,華盛頓大學的Grover致力於生成和檢測虛假新聞,訓練壹個更大的Grover Mega模型的總成本為2.5萬美元;OpenAI花費12萬美元訓練其GPT-3語言模型;谷歌花了大約6,965,438+02美元訓練伯特,而臉書可能僅在電力上就花了數百萬美元對目前最大的模型進行壹輪訓練。
對此,臉書人工智能副總裁傑羅姆?佩森蒂在接受《連線》雜誌采訪時認為,AI科研成本的持續增加或者說我們在這壹領域的研究已經碰壁。現在需要考慮性價比等方面,需要知道如何從現有的計算能力中獲得最大的收益。
在我們看來,AI計算系統面臨著計算平臺的優化設計、復雜異構環境下的計算效率、計算框架的高並行性和可擴展性、AI應用的計算性能等挑戰。計算能力的發展將對整個計算需求提出更大的挑戰,迫切需要提高整個AI計算系統的效率。
最優解:智能計算中心的大趨勢應該是從國家公共設施的屬性出發。
正是因為對計算能力的需求越來越大,需要提高效率,建設承載巨大AI計算需求的計算能力中心(數據中心)成為當務之急。
根據市場研究機構Synergy Research Group的數據,到2020年第二季度末,全球超大規模數據中心的數量已經增加到541,與2015年同期相比增加了壹倍多。此外,還有176個數據中心處於規劃或建設階段,但作為傳統數據中心,能耗和成本會大大增加。
這裏僅以國內數據中心建設為例,現在數據中心的耗電量驚人。《中國數據中心能耗狀況白皮書》顯示,中國有40萬個數據中心,每個數據中心平均消耗25萬千瓦時,合計超過6543.8+0億千瓦時,相當於三峽和葛洲壩水電站654.38+0年發電量的總和。如果換算成碳排放量,約為9600萬噸,接近目前中國民航年碳排放量的3倍。
但根據國家標準,到2022年,數據中心平均能耗基本達到國際先進水平,新建大型和超大型數據中心PUE(能效值越低越節能)達到1.4以下。而且北上廣深等發達地區對能耗指標的控制還是非常嚴格的,這與壹二線城市對集中式數據中心的需求是矛盾的。除了降低PUE,在同等計算能力的情況下,提高服務器尤其是數據中心的計算效率應該是壹個正解。
然而,眾所周知的事實是,面對前述巨大的AI計算需求和提高效率的挑戰,傳統數據中心已經越來越難以承載這樣的需求。為此,AI服務器和智能計算中心應運而生。
與傳統服務器使用單壹CPU不同,AI服務器通常配備GPU、FPGA、ASIC等加速芯片。CPU和加速芯片的結合可以滿足高通量互聯的需求,為自然語言處理、計算機視覺、語音交互等人工智能應用場景提供強大的計算支持,成為人工智能發展的重要支撐力量。
值得壹提的是,我們在AI服務器領域已經處於領先地位。
近日,IDC發布了《2020HI全球人工智能市場半年度跟蹤報告》,對2020年上半年全球人工智能服務器市場進行了數據洞察。目前全球半年度人工智能服務器市場規模達到55.9億美元(約合326.6億人民幣),其中浪潮以16.4%的市場份額位居全球第壹,成為全球AI服務器第壹玩家,華為、聯想也殺入前5名(。
在這裏,業界可能會奇怪為什麽中國在AI服務器上領先世界。
以浪潮為例。自1993浪潮成功研發國內首臺小型機服務器以來,經過30年的積累,浪潮攻克了高速互聯芯片、關鍵應用主機、核心數據庫、雲數據中心操作系統等壹系列核心技術。,並已在全球高端服務器俱樂部中占據重要地位。在AI服務器領域,從全球密度最高的AGX-2到性能最高的AGX-5,浪潮不斷刷新行業最強人工智能超級服務器紀錄,是為滿足行業用戶對人工智能計算的高性能要求而打造的。浪潮壹直認為,行業客戶希望獲得人工智能的能力,但需要掌握人工智能能力和技術的公司來賦能,而浪潮可以很好地扮演這個角色。加快人工智能的落地速度,幫助企業用戶打開人工智能應用的大門。
從這個角度來說,技術創新的長期積累,核心技術的掌握,對行業和技術的準確判斷和研發,才是領先的根本。
關於智能計算中心,去年發布的《智能計算中心規劃建設指南》公布了智能計算中心的技術架構。基於最新人工智能理論,采用領先的人工智能計算架構,通過計算力生產、聚合、調度、釋放四大運營環節,支撐和引領數字經濟、智能產業、智慧城市和智慧社會應用及生態健康發展。
總的來說,智能時代的智能計算中心就像工業時代的發電廠壹樣。電廠對外生產、配置、傳輸和使用電力。智能計算中心是在產生、聚合、調度、釋放AI計算能力的過程中,讓數據進去,智慧出來,這是智能計算中心的理想目標。
需要註意的是,與傳統數據中心不同,“智能計算中心”不僅高密度集中計算能力,還解決計算資源、數據和算法的調度和有效利用問題,更像是從計算器到大腦的進化。此外,其開放標準、集約高效、通用包容的特點,不僅可以覆蓋更多軟硬件技術和產品的集成,還可以大大降低工業AI的準入和應用門檻,直至全民受益。
其實只要仔細觀察就會發現,智能計算中心所包含的計算能力的產生、聚合、調度、釋放,可謂是AI能力的集合,具有全棧式的AI能力。
在這裏,我們不妨再次以浪潮為例,看看什麽是全棧AI能力?
例如,在計算能力生產層面,浪潮構建了業界最強、最全面的AI計算產品陣列。其中,浪潮研發的新壹代人工智能服務器NF5488A5在2020年壹舉打破了MLPerf AI推理。訓練基準測試19世界紀錄(保證足夠的計算能力,解決提升計算能力的需求);在計算力調度層面,浪潮AIStation人工智能開發平臺可為AI模型開發訓練和推理部署提供全平臺、全流程的管理支持,幫助企業提升90%以上的資源利用率和開發效率,加速AI開發和應用創新(解決計算力效率問題);在聚合計算能力方面,浪潮繼續打造更高效率、更低延遲的硬件加速設備,優化軟件棧;在計算能力釋放方面,浪潮AutoML Suite為人工智能客戶和開發者提供了快速高效開發AI模型的能力,開啟了全自動AI建模的新方式,加速了行業應用。
那麽接下來就是,智能計算中心應該走什麽樣的發展道路才能充分發揮作用,物盡其用?
根據IDC的研究,超過90%的企業正在使用或計劃在三年內使用人工智能,其中74.5%的企業期望在未來采用具有效用意義的人工智能專用基礎設施平臺,以降低創新成本,提高計算資源的可用性。
從這個角度來看,智能計算中心建設的公共性原則在當前和未來尤為重要,即智能計算中心不是壹個盈利性的基礎設施,而應該是壹個類似於水利系統、水務系統、電力系統的公共性、公共性基礎設施,將承載智能化的居民生活服務和智能化的政府服務。因此,在智能計算中心的規劃建設過程中,需要做好布局,這不應該通過市場競爭的方式來實現,而應該體現政府在推動全社會智能化進程中的規劃、節奏和布局。
總結:目前,計算能力已經成為推動數字經濟的基礎,成為中國“新基礎設施”的基地,如何理性看待其發展中遇到的挑戰,在不斷提升計算能力的前提下提高效率,采取最佳的發展策略和形式,尋找最優的解決方案,將成為政府相關部門和相關企業的重中之重。