事實上,早在20世紀60年代,就有研究人員提出用人工智能來解決社會問題。當時人工智能的方法還僅限於先了解人類是如何產生智能的,然後讓計算機按照人類的思維去做。吳軍老師在《智能時代》中說:“在人類發明史上,很多領域的早期嘗試都是模仿人或者動物的行為,因為這是我們直覺思維最容易的方式。”然而,經過十幾年的發展,科學家發現采用上述思路發展人工智能似乎並不能解決任何實際問題。很多科學家開始反思人工智能的發展,在接下來的20年左右的時間裏,人工智能學術領域的研究處於低谷。20世紀70年代,人類開始嘗試智能的另壹種發展道路,即采用數據驅動和超級計算的方法。甚至在10年前,我還在讀書的時候,就接觸了人工神經網絡算法。很顯然,當時機器智能的概念還是比較模糊的,人工智能也沒有被我們提升到現在的高度。
機器智能的概念提出已經60多年了,但真正的突破是在大數據的今天。為什麽今天會出現大數據的拐點?大數據面臨哪些技術挑戰?
在過去的10年中,最明顯的特征就是全球數據的爆炸式增長。大數據的第壹個來源是計算機本身;第二個來源是傳感器;第三個來源是將過去存在的、以非數字形式存儲的信息數字化。根據思科公司2015年的統計,從2009年到2015年的6年間,企業級數據增長了50倍。當然,數據的爆炸式增長離不開計算機硬件、軟件、互聯網、數據存儲、數據處理等壹系列支撐技術的發展和支撐。大數據實際上是對計算機科學、電氣工程、通信、應用數學和認知科學發展的綜合考慮。目前來看,這些技術問題可能沒有最好的解決方案,甚至沒有絕對好的解決方案。
壹.數據收集
傳統的數據方法往往是先有目的,再開始收集數據。比如海王星的發現,是在人們發現天王星的運行軌跡與牛頓力學預測的不同之後,天文學家發現的。心理學研究也是在有了明確的研究課題後,通過實驗來收集數據,比如“棉花糖測試”系列實驗,關於認知障礙的“跟隨者案例”。大數據避免了采樣的痛苦,因為大數據往往以全集(大數據的特征之壹)作為樣本集。
然而,如何收集完整的作品是壹件非常具有挑戰性的事情。目前壹些聰明的公司,比如谷歌、JD.COM、臉書、百度,都是繞個彎間接收集數據,然後利用數據的相關性得出自己的結論。但即使是這些成功的公司,還是有很多失敗的案例。2010年,谷歌為了獲取數據,為進入電視廣告做準備,推出了自己的電視機頂盒Google TV。但由於谷歌電視銷量不佳,谷歌最終徹底放棄了這款產品。到目前為止,無論是谷歌過去的機頂盒,還是Chromecast電視棒後來和Apple TV,除了統計收視率,計算可能的廣告主之外,沒有太多事情可做。數據收集是壹個開放的話題,沒有唯壹性或最佳方法,仍然面臨很大的挑戰。
第二,數據存儲
僅谷歌街景地圖每天就產生1TB的數據。如果壹條數據存儲三份,壹年就是1PB。就算妳用現在最大容量的10TB硬盤,妳也需要用100個硬盤。因此,我們不能單純依靠設備來解決數據存儲的問題,而需要技術方案來提高存儲效率,保證不斷產生的數據能夠被保存。目前數據存儲手段主要從以下兩個方面考慮:去除數據冗余和易於使用。去除數據冗余可以簡單理解為去除數據中重復的部分,比如同壹附件在所有郵件中只存儲壹次。這樣,在去除數據冗余的過程中,相應的數據讀寫處理會發生變化。是否有比現在更高效的存儲格式或方法,仍然是大數據面臨的挑戰。另外,易用的思路是站在用戶的角度考慮數據存儲。在大數據之前,設計文件系統的數據存儲格式時,數據主要考慮的是規模小、維度少的結構化數據。在大數據時代,不僅數據的數量和維度急劇增加,而且大數據的形式也沒有固定的模式,因此需要重新設計通用、有效、便捷的數據表示和存儲方式。
第三,數據處理
大數據因為體量大,維度多,計算量巨大,處理效率是壹個很大的技術挑戰。並行計算是目前解決巨大計算量的重要手段,但仍然存在壹些問題。比如,不可能用壹部分計算並行計算任何問題,這種計算的比例越大,並行處理的效率越低;再次,在並行計算中,不能保證每個小任務的計算量都是壹樣的,所以並行計算的效率會大大降低,即已經完成自己計算任務的服務器需要等待單個未完成的服務器,最終的計算速度取決於最終完成的子任務。
第四,數據挖掘
如何從雜亂的數據中挖掘出有價值的信息,是機器智能的關鍵,也是大數據的使命。去噪後的數據基本可以直接使用,接下來的關鍵步驟就是機器學習。目前廣泛使用的機器學習算法有人工神經網絡算法、最大熵模型、邏輯自回歸等。谷歌的AlphaGo的訓練算法是人工神經網絡。機器學習的過程是壹個叠代和進化的過程。只要預先確定壹個當前情況,這些算法就會不斷優化模型,使其更接近真實情況。尋找更好的算法壹直是科學家探索的難題。
動詞 (verb的縮寫)數據安全
大數據應用的壹個挑戰還來自於對數據安全的擔憂和對隱私的需求。索尼在2014年數據丟失時,損失高達1億美元。比商業數據丟失更嚴重的是醫療數據被盜。在國內,除了北京的大數據中心,貴陽已經建立了大數據災備中心,內蒙古也在籌備另壹個數據災備中心。至於數據隱私,我想大家應該深有感觸。信息泄露引發的騷擾電話、電信詐騙,就發生在我們每個人身上。據《智能時代》報道,“在美國的黑市上,壹份病歷的賣家大約是商業數據的50倍”。可見,數據安全已經成為大數據發展的壹大隱患和問題。
大數據上述五個方面的技術挑戰並不是獨立的,而是相輔相成、相互影響的。關於大數據的技術挑戰,我在這裏只談我個人的理解,希望能幫助妳這方面的思考。下周繼續講,大數據給我們帶來了便利,也帶來了隱患。