文件還提出,要高效推進新型計算基礎設施建設。將新的計算力建設項目納入計算力夥伴計劃,加快海澱區“北京人工智能計算平臺”和朝陽區“北京數字經濟計算中心”等項目建設,快速形成大規模先進計算力供給能力,支撐千億級參數的大規模語言模型、多模態模型、大規模精細神經網絡仿真模型、腦啟發神經網絡等研究開發。
在提高高質量數據元素供給能力方面,征求意見稿針對目前大模型訓練的高質量中文語料庫占比過小,不利於中文語境表達和行業應用的現狀,提出整合現有開源中文預訓練數據集和高質量互聯網中文數據並進行合規清洗。同時,繼續拓展優質多模態數據源,建設符合規範、安全的中文、圖形對、音視頻等大模型預訓練語料庫,並通過北京國際大數據交易所社會數據區有條件開放。
文件還提出,加快建設數據要素高水平開放的“國家數據基礎體系試點示範區”,爭取國家數據培訓基地,提升北京人工智能數據標註庫規模和質量。建議優質數據網站所屬企業提供部分脫敏優質數據,有針對性、有條件地開放,企業或科研機構可通過在線申請免費使用,探索基於數據貢獻和模型應用的商業場景合作。
在大規模模型技術體系體系布局方面,文件提出開展大規模模型創新算法和關鍵技術研究,加強大規模模型訓練數據采集和治理工具研發,開放大規模模型評測基準和工具,探索具身智能、通用代理、類腦智能等通用人工智能新路徑。
對於場景應用,征求意見稿提到了六個領域:政府服務、醫療、科研、金融、自動駕駛、城市治理。
文件提出,探索營造包容審慎的監管環境,鼓勵生成式人工智能產品在科研等非公共服務領域實現向上、良好的應用,發布《北京市互聯網信息服務算法推薦指南》。
附:北京市促進通用人工智能創新發展的若幹措施(2023-2025)(征求意見稿)
為搶抓大模式發展機遇,重視通用人工智能發展,充分發揮政府的引導作用和創新平臺的催化作用,整合創新資源,加強要素配置,營造創新生態,註重風險防範,促進我市通用人工智能領域的創新引領,提出以下實施措施:
第壹,加強計算資源的整體供給能力
(壹)組織商用計算能力,滿足城市的迫切需求。
加強與頭端公有雲廠商等市場主體的合作,實施計算合作夥伴計劃,確定首批合作夥伴計劃成員,明確供應技術標準、軟硬件服務要求、計算電源供應規模、優惠策略等。,並公布壹批面向北京高校和中小企業的優質計算能力供應商。
(2)有效推進新型計算基礎設施建設。
將新的計算力建設項目納入計算力夥伴計劃,加快海澱區“北京人工智能計算平臺”和朝陽區“北京數字經濟計算中心”等項目建設,快速形成大規模先進計算力供給能力,支撐千億級參數的大規模語言模型、多模態模型、大規模精細神經網絡仿真模型、腦啟發神經網絡等研究開發。
(3)構建統壹的雲計算電力調度平臺。
利用政府統壹入口,降低公有雲采購成本,惠及中小企業,降低企業面對不同雲廠商的溝通成本。針對柔性計算能力的需求,構建統壹的雲計算能力調度平臺,實現異構計算環境的統壹管理和統壹運行,方便企業在不同的雲環境中無縫、經濟、高效地運行各類人工智能計算任務。建設北京與河北、天津、山西、內蒙古等省(市)的直接基礎光傳輸網絡,進壹步提升平臺對四地計算資源的感知,探索計算交易。
第二,提高高質量數據要素的供給能力
(D)收集高質量的基本培訓數據集
針對大規模模型訓練中高質量中文語料比例過少,不利於中文語境表達和產業化應用的問題,對現有開源中文預訓練數據集和高質量互聯網中文數據進行整合和合規清洗。同時,繼續拓展優質多模態數據源,建設符合規範、安全的中文、圖形對、音視頻等大模型預訓練語料庫,並通過北京國際大數據交易所社會數據區有條件開放。
(五)創建“國家數據基礎系統試點示範區”,規劃國家數據培訓基地。
加快建設數據要素高水平開放的“國家數據基礎體系試點示範區”,爭取國家數據培訓基地,提升北京人工智能數據標註庫規模和質量。建議優質數據網站所屬企業提供部分脫敏優質數據,有針對性、有條件地開放,企業或科研機構可通過在線申請免費使用,探索基於數據貢獻和模型應用的商業場景合作。
(6)搭建數據集精細標註的眾包服務平臺。
建設指揮數據集和多模態數據集眾包服務平臺,開發集成相關工具和應用的智能雲服務系統,鼓勵和組織不同學科專業人員對通用人工智能模型的訓練數據和指揮數據進行標註,提高訓練數據的多樣性,對貢獻者給予適當獎勵,促進平臺持續良性發展。
三、系統布局大模型技術體系,繼續探索通用人工智能之路。
(七)開展大規模模型創新算法和關鍵技術研究。
圍繞大規模語言模型構建、訓練、優化比對、推理部署全過程,支持創新算法和核心技術研究,形成完整高效的訓練體系並對外開源。探索多模態通用模型架構,研究大模型高效並行訓練技術,以及邏輯和知識推理、指令學習、人的意圖對齊等優化方法,開發支持百億級參數模型推理的高效壓縮技術。
(八)加強大型模型訓練數據采集和管理工具研發。
從“采集、存儲、管理、研究、使用”五個方面,開發了包括數據采集、清洗、標記、脫敏、存儲在內的數據處理工具。本文重點研究了互聯網數據實時更新技術、多源異構數據的整合與分類方法、數據管理平臺的相關系統、數據清洗、標註、分類和標註等軟件工具和算法、數據內容安全審查的算法和工具。
(9)開放大規模模型評測的基準和工具。
構建多模態、多維度的基礎模型評價基準和評價方法。建立壹個基本的模型評估工具集,並提供自適應的評估工具。建立公平高效的自適應評價機制,根據不同的評價目標自動適配不同的工具和指標。研究了人工智能輔助的智能模型評估算法,構建了針對主觀或生成性任務的自動評估工具。整合包括通用性、高效性、智能性、魯棒性等多維度評估工具,搭建基礎模型在線評估服務平臺。
(十)推進大型號基礎軟硬件系統研發。
支持開發分布式高效訓練系統,實現高效自動化並行模型訓練任務。開發適用於模型訓練場景的新壹代人工智能編譯器,實現算子自動生成和自動優化,推動人工智能芯片和框架的廣泛適配。開發人工智能芯片評估系統,實現多芯片多框架自動評估。為大規模模型訓練和應用提供自主創新的基礎軟硬件生態基礎。
(十壹)探索軀體智能、通用代理、類腦智能等通用人工智能新路徑。
發展通用人工智能基礎理論框架體系,加強人工智能數學機制、自主合作和決策的基礎理論研究。推進帶體智能系統研究與應用,突破機器人在開放環境、廣義場景、連續任務等復雜條件下的感知、認知和決策技術。探索價值和因果驅動的通用人工智能新路徑研究,構建通用人工智能統壹理論框架體系、評級標準和測試平臺,開發通用人工智能操作系統和編程語言,推動通用代理底層技術架構應用。探索類腦智能等交叉學科研究,通過對大腦神經元連接方式、編碼機制和信息處理原理的研究,啟發新的人工神經網絡建模和訓練方法。
第四,推動通用人工智能技術創新場景的應用
(十二)推進政務服務領域試點應用。
以政府咨詢、政策服務、即時處理投訴、政務公開等工作為重點,率先實現大型號科技賦能。借助大規模模型語義理解、自主學習和智能推理,提高政府咨詢系統的智能答疑水平,增強多語言交互能力。支持“北京政策”平臺建設,優化政策規範化管理和精準服務。協助公共服務熱線更高效地回應公眾訴求,深化民生大數據的高效利用。提高辦理服務的便捷性,協助指導辦事員填表,協助綜合窗口人員提供更準確的辦理指令,協助審批人員提高審批效率,促進業務數據更充分的享受和業務流程更高效的協同。
(十三)探索在醫學領域的示範應用。
支持我市符合條件的研究型醫療機構細化智能引導、輔助診斷、智能治療的場景需求,充分挖掘醫學文獻、醫學知識圖譜、醫學影像等多模態醫學數據,構建基於醫學領域通用數據和專業數據的智能應用,實現各類疾病和癥狀的精準識別和預測,輔助醫療機構提高疾病診斷、治療和預防的決策水平。
(十四)探索在科研領域的示範應用。
發展科學智能,加速人工智能技術,為新材料、創新藥物等領域的科研賦能。支持我市能源、材料、生物等領域相關實驗室設立科研合作項目,與我市相關科研機構、創新企業開展聯合研發,充分挖掘材料、蛋白質、分子藥物等領域的實驗數據,開發科學計算模型,開展新型合金材料、蛋白質序列、創新藥物的化學結構序列預測,縮短科研實驗周期。
(十五)推進金融領域的示範應用。
進壹步挖掘我市金融行業應用場景,系統安排壹批金融機構“開清單”項目。針對金融場景下信息負載高、信息更新快,金融從業人員難以快速全面獲取準確信息的情況,支持金融科技企業探索應用人工智能技術對金融文本進行深度理解和分析。重點圍繞智能風控、智能投資、智能客服等環節,推動金融長文本的精準分析和模型知識的更新,突破復雜決策邏輯與模型信息處理能力的融合技術,實現復雜金融信息處理向投資決策建議的轉變,支撐金融領域的投資輔助決策。
(十六)探索自動駕駛領域的示範應用。
支持自動駕駛企業研發多模態自動駕駛技術,充分發揮大規模語言模型的高維語義理解和泛化優勢,提升基於車路協同數據和車駕多傳感器融合數據的自動駕駛模型多維感知和預測性能,有效解決復雜場景的長尾問題,有助於提升車載自動駕駛模型的泛化能力。支持北京高水平自動駕駛示範區3.0建設中的車路協同數據庫建設,引導企業開展基於真實場景的自動駕駛模型訓練叠代。探索基於低時延通信的雲控自動駕駛模型試驗,為自動駕駛開拓新的技術路徑。
(十七)推進城市治理領域的示範應用。
支持人工智能R&D企業率先將大模型技術引入城市大腦建設,開展多感知系統融合處理技術研發,打破城市治理中各系統的數據孤島,實現智慧城市底層業務的統壹感知、關聯分析和態勢預測,科學配置政府資源和行政權力,為城市治理提供更加全面綜合的決策輔助。
動詞 (verb的縮寫)探索和營造包容審慎的監管環境。
(十八)持續推進監管政策和監管流程創新。
探索營造穩定包容的監管環境,積極推動對人工智能領域新技術賦能傳統產業的包容審慎監管,支持人工智能算法和框架等基礎技術的自主創新、推廣應用和國際合作。優先使用安全可靠的軟件、工具、計算和數據資源,通過改進算法等技術手段保證訓練數據集的標準化。鼓勵生成型人工智能產品在科研等非公共服務領域實現向上應用。積極爭取國家網信部,在中關村核心區建立試點,推動實施包容審慎監管。
(十九)建立常態化服務和引導機制。
做好擬向公眾提供服務的生成式人工智能產品的安全評估工作,建立常態化的聯系服務和引導機制,督促企業遵守法律法規,尊重社會公德、公序良俗。優化安全評估流程機制,細化大模型算法設計、訓練數據源篩選、內容安全、人工標註規則等評估標準,開展精準服務指導,加快推進我市人工智能企業相關技術產品安全評估。引導企業建立健全算法安全防範機制,在產品研發階段引入安全檢測技術工具,督促企業積極履行算法備案、變更、註銷等程序。發布《北京市互聯網信息服務算法推薦與合規指南》,引導創新主體樹立安全責任意識,完善管理制度,強化技術手段,促進企業算法合規發展。
(二十)加強網絡服務安全保護和個人數據保護。
引導計算運營商落實網絡安全法、數據安全法、個人信息保護法等法律法規,加強網絡和數據安全管理,明確網絡安全、數據安全和個人信息保護主體責任,加強安全管理制度建設和實施,鼓勵企業開展數據安全管理認證和個人信息保護認證,落實數據跨境傳輸安全管理制度,全面提升網絡安全和數據安全保護能力。
(二十壹)繼續提高人工智能行業倫理治理的自律和自治能力。
落實建設新壹代國家人工智能創新發展實驗區任務,加強人工智能倫理安全規範和社會治理實踐研究,開發部署人工智能倫理治理服務平臺,服務政府監管和行業自律,強化相關責任主體科技倫理規範意識,提升科技倫理治理能力。
壹.起草背景
為抓住大規模型號發展機遇,重視通用人工智能發展,充分發揮政府的引導作用和創新平臺的催化作用,整合創新資源,加強要素配置,營造創新生態,註重風險防範,促進我市通用人工智能領域的創新引領,制定本辦法。
二、主要內容
《若幹措施》明確了組織機制,提出了強化計算資源整體供給能力、提升優質數據要素供給能力、在系統布局和大規模模型技術體系上不斷探索通用人工智能路徑、推進通用人工智能技術創新場景應用、探索營造包容審慎監管環境等五個方向21項具體措施。
壹是強化計算力資源整體供給能力的導向,依托市數據中心整體聯席會議工作機制,加強市區層面相關單位與重點新型研發機構、雲服務企業、計算力建設企業、基礎電信企業等單位的溝通合作,推動現有計算力的匯集、新項目的論證和現有項目的改造。這壹方向提出了三項具體措施:組織商用計算力、建設新型計算力基礎設施、建設雲計算力調度平臺。
二是提高優質數據要素供給能力,聯合相關單位建設大規模預訓練基礎數據集和高質量微調數據集。建立培訓數據供應和使用協調機制,加強相關行業主管部門、相關區政府和R&D重點單位、平臺企業、數據交易機構等市場主體的溝通合作。該方向提出了收集高質量基礎訓練數據集、建設“國家數據基礎體系試點示範區”、規劃國家數據訓練基地、建設數據集精細標註眾包服務平臺三項具體措施。
三是系統布局大模型技術體系,不斷探索通用人工智能路徑,支持大模型創新算法和關鍵技術研究,支持大模型基礎軟硬件系統、訓練數據采集管理工具和評估工具研發,支持通用人工智能新路徑探索。在這壹方向,提出了開展大模型創新算法和關鍵技術研究、加強大模型訓練數據采集和治理工具研發、開放大模型評測基準和工具、推進大模型基礎軟硬件系統研發、探索通用人工智能新路徑等五項具體措施。
四是推動大規模模型技術創新場景應用方向,充分發揮大規模模型泛化能力強的特點,引導企業充分挖掘領域數據資源,開展領域大規模模型應用技術研究,拓展大規模模型應用邊界,探索面向細分垂直領域的大規模模型商業模式和創新生態。該方向提出了在政務服務、醫療、科研、金融、自動駕駛、城市治理等領域拓展應用場景的六項具體措施。
五是探索營造包容審慎監管環境的方向,與大型示範企業建立常態化聯系和服務機制,持續調研跟蹤企業在安全評估中遇到的困難,加強與國家網信辦的溝通協調,積極爭取在中關村核心區建立試驗區,推動包容審慎監管的實施。該方向提出了四項具體措施:持續推進監管政策和監管流程創新,建立常態化服務和引導機制,加強大規模網絡安全保護和個人數據保護,不斷提高人工智能行業倫理治理的自律性和自主性。