比如經濟方面,黃仁宇先生在對宋代經濟的分析中發現了“數理”(即數量分析)的廣泛應用(可惜王安石變法始而無終)。再比如軍隊。不管真假,“向林彪學習數據挖掘”這壹橋段背後的量化分析思想無疑有其現實基礎,甚至可以追溯到2000多年前。孫臏正是通過編造“把10萬個爐子減為5萬個爐子,再減為3萬個爐子”的數據,利用龐涓的定量分析習慣,對其進行誘捕和殺傷。
20世紀五六十年代,磁帶取代了穿孔卡片機,引發了數據存儲的革命。磁盤驅動器馬上發現,它帶來的最大想象空間不是容量,而是隨機讀寫的能力,壹下子解放了數據工作者的思維模式,開始了數據的非線性表達和管理。數據庫應運而生,從分層數據庫(IBM為阿波羅登月設計的,現在CCB還在用),到網狀數據庫,再到現在的通用關系數據庫。決策支持系統(DSS)起源於數據管理,並在20世紀80年代演變為商業智能(BI)和數據倉庫,為數據分析開辟了道路,即賦予數據以意義。
在那個時代,數據管理和分析最強大的應用是業務。第壹個數據倉庫是為寶潔公司制造的,第壹個萬億字節的數據倉庫是在沃爾瑪。沃爾瑪的典型應用有兩個:壹個是基於retaillink的供應鏈優化,與供應商共享數據,指導其產品設計、生產、定價、配送、營銷的全過程,而供應商可以優化庫存,及時補貨;二是購物籃分析,也就是常說的加啤酒加尿布。關於啤酒和紙尿褲,幾乎所有的營銷書籍都令人信服。我告訴妳,是Teradata的壹個經理編的,人類歷史上從來沒有過。但是,先教育市場,再收獲,是積極的。
僅次於沃爾瑪的樂購,專註於客戶關系管理(CRM),細分客戶群體,分析他們的行為和意圖,做精準營銷。
這壹切都發生在20世紀90年代。在2000年代,科學研究產生了大量的數據,如天文觀測和粒子碰撞。第四範式是數據庫大師吉姆·格雷提出的,是對數據方法論的改進。前三種範式分別是實驗(伽利略從斜塔上扔下來)、理論(牛頓受壹個蘋果啟發,形成了物理學經典定律)、模擬(粒子加速太貴,核試驗太臟,所以用計算代替)。第四種範式是數據探索。其實這並不新鮮。開普勒根據之前行星位置的觀測數據擬合橢圓軌道,這就是數據法。但是到了90年代,科研數據太多,數據探索成為突出的研究。在今天的學科中,有壹對孿生兄弟,計算XX和XX信息學。前者是模擬/計算範式,後者是數據範式,如計算生物學和生物信息學。有時候計算XX包括數據範式,比如計算社會學,計算廣告學。
2008年,克裏斯·安德森(長尾理論的作者)在《連線》雜誌上寫了壹篇文章《理論的終結》,引起軒然大波。他的主要觀點是,有了數據,就不需要模型,或者說很難獲得壹個可解釋的模型,所以模型所代表的理論是沒有意義的。給妳講講數據,模型,理論。我們先來看壹個大概的圖。
首先,我們在觀察客觀世界時從三個點收集數據。根據這些數據,我們可以對客觀世界有壹個理論上的假設,可以用壹個簡化的模型來表示,比如三角形。可以有更多的模型,比如四邊形,五邊形。隨著觀察的深入,又采集了兩個點。這時候發現三角形和四邊形的模型都是錯的,於是確定模型是五邊形,這個模型反映的世界就在那個五邊形裏,卻不知道真正的時間是圓的。
大數據時代的問題在於,數據多而雜,無法再用簡單明了的模型來表達。這樣,數據本身就成了模型。嚴格來說,數據和應用數學(尤其是統計學)已經取代了理論。安德森以谷歌翻譯為例。統壹的統計模型取代了各種語言的理論/模型(如語法)。如果能從英語翻譯成法語,就可以從瑞典語翻譯成漢語,只要有語料庫數據。谷歌甚至可以翻譯Clayton(StarTrek編譯的語言)。安德森提出的是關聯性而非因果性的問題,勛伯格(以下簡稱老舍)只是撿了人的智慧。
當然,科學界並不認同理論的終結,認為科學家的直覺、因果性和可解釋性仍然是人類取得突破的重要因素。有了數據,機器就能發現隱藏在當前知識版圖中的未知部分。沒有模型,知識版圖的上限就是機器線性增長的計算能力,無法擴展到新的空間。人類歷史上,每壹次知識疆域的跨越式擴張,都是天才們和他們的理論首先吹響的號角。
2010左右,大數據浪潮卷起,這些爭論很快被淹沒。看Google trends,“bigdata”這個詞當時就跳了起來。小號手有幾個,壹個是IDC,每年給EMC壹份digitaluniverse的報告,上升到Zebyte的範疇(給妳壹個概念,現在硬盤是TB,1000太=1拍,阿裏和臉書的數據是幾百拍,1000拍=1拍,百度是個位數。壹個是麥肯錫,它出版了《大數據:創新、競爭和生產率的下壹個前沿》。壹個是《經濟學家》,重要作家之壹是肯尼斯,他和老舍同處大數據時代。庫克耶;還有壹個是Gartner,發明了3V(大、雜、快)。其實這個3V是2001編的,只是在大數據的背景下有了新的解讀。
在我國,黃總、總也是在2011左右開始呼籲關註大數據。
2012子沛的《大數據》壹書,對教育政府官員做出了巨大貢獻。老舍和庫克耶的《大數據時代》提出了三大思想,現在已經奉為圭臬,但不要把它們當成放之四海而皆準的真理。
例如,不要對整個數據集進行采樣。實事求是地說,1。沒有壹套完整的數據,數據都是孤島;2.全集太貴了。鑒於大數據信息密度低,是貧礦,投入產出比不壹定好;3.抽樣在宏觀分析中仍然有用,蓋洛普用5000個樣本擊敗百萬次調查的做法仍然具有現實意義;4.抽樣應具有隨機性和代表性。采訪火車上的農民工,得出他們都買了票的結論,這不是壹個好的抽樣。現在只做固話抽樣調查不好(手機是大頭),基於國外Twitter抽樣也不完全有代表性(不包括老年人);5.采樣的缺點是有百分之幾的偏差,甚至會丟失黑天鵝的信號。所以,在全套數據存在且可分析的前提下,全量是首選。總量>好的抽樣>;質量不均勻。
況且雜合是因為準確。擁抱雜糅(這樣的客觀現象)是壹種很好的態度,但不代表喜歡雜糅。數據清理比以前更重要了。如果數據失去了識別性和有效性,就應該扔掉。老舍引用Google的結論,少數高質量的數據+復雜的算法被大量低質量的數據+簡單的算法打敗,來證明這種思維。彼得的研究是網絡文本分析,這是真的。然而,谷歌的深度學習已經證明這並不完全正確。對於信息維度豐富的語音和圖片數據,需要大量的數據和復雜的模型。
最後,要有關聯性,而不是因果性。對於大量的小決策,相關性是有用的,比如亞馬遜的個性化推薦;對於小批量的重大決策,因果關系仍然很重要。就像中醫壹樣,只到了相關的階段,卻沒有解釋,也不能斷定某些樹皮和蟲殼就是治愈的原因。發現西醫的相關性後,要做隨機對照試驗,排除壹切可能導致“治愈果”的幹擾因素,獲得因果關系和可解釋性。商業決策也是如此。相關性只是開始。它取代了拍腦袋的假設和直覺,而後面驗證因果關系的過程依然重要。
把大數據的壹些分析結果在相關性上實現也是壹種倫理需要,動機不代表行為。預測分析也是壹樣,不然警察預測人會犯罪,保險公司預測人會生病,社會會很麻煩。大數據算法極大的影響了我們的生活,有時候感覺還挺悲哀的。就是算法覺得借不借都能拿到錢。谷歌每次調整算法,很多線上業務都會因為排名靠後而受到影響。
時間不多了。我會貼壹些關於價值維度的東西。大數據的思想中很重要的壹點是,除了決策的智能,還有數據本身的價值。這壹點我就不贅述了。引用馬雲的壹句話,“信息的起點是我認為我比別人聰明,數據的起點是別人比我聰明;信息是妳把數據編輯後給別人的,數據是妳收集後給比妳聰明的人的。”大數據能做什麽?值V如何映射到其他3V和時空象限?我畫了壹幅畫:
並貼出解釋。體積空間維度中的“見微”與“知”。小數據是微妙的和個人的。我曾在《壹代宗師》中形容為“看見自己”;大數據了解並反映自然界和群體的特征和趨勢。我把它比作“見世面,見眾生”。“者”促“微”(比如把人群細分成桶),拉“微”(比如把同類人的喜好推薦給個人)。“微”和“著”也體現了時間維度。個人價值在最初產生衰變時最大,最終隨著時間退化為集體價值。
速度的時間維度中的“現在”和“全部清除”。在時間的原點,當下就是靈光壹閃之間的實時智慧。結合過去(負軸)和預測未來(正軸),我們都可以理解,也就是我們可以獲得永恒的智慧。西遊記中對真假美猴王的描述,壹個是“知天知地知變”,壹個是“知天知地知前後”,正好對應。為了實現普遍知識,我們需要總體分析、規定分析和處置分析(需要采取什麽行動來使設定的未來發生)。
變體空間維度中的“錯誤辨析”與“意義理解”。基於海量多源異構數據,我們可以甄別和過濾噪聲,查漏補缺,去偽存真。理解達到了更高的層次,從非結構化數據中提取語義,使機器能夠窺探人的思想境界,達到了結構化數據分析過去無法達到的高度。
先看它,對宏觀現象規律的研究早就有了。大數據的知識有兩個新特點。壹個是從抽樣到總量。比如央視的調查“妳幸福嗎?”去年是街頭抽樣。不久前中國經濟生活調查關於幸福城市排名的結論,是基於654.38+萬份問卷(654.38+07題)的抽樣得出的。清華行為與大數據實驗室做的幸福指數(跟隨熊婷、我和本群很多朋友的參與)是基於新浪微博數據全集(感謝老王)。這些數據是人們的自然表達(而不是對問卷的被動回答),有語境,所以更真實,更有解釋力。是空氣、房價還是教育讓北上廣不幸福?微博中更容易傳播的正面情緒還是負面情緒,數據告訴妳答案。《中國經濟生活調查》說“我們甚至能聽到最小的聲音”,這是誇張的說法。抽樣和傳統的統計分析方法采用壹些簡化的模型進行數據分布,忽略了異常和長尾。總分析能看到黑天鵝,聽到長尾的聲音。
另壹個特點是從定性到定量。計算社會學是定量分析在社會學中的應用。壹批數學家和物理學家成為了經濟學家和自由主義者,現在他們也可以選擇成為社會學家。國泰君安3I指數也是壹個例子。基於幾十萬用戶的數據,主要反映投資活躍度和投資收益水平,建立量化模型推斷整體投資景氣度。
再看微觀,我覺得大數據真正的差異化優勢在於微觀。自然科學是宏觀的,具體的,微觀的,抽象的,那麽大數據就很重要。我們更註重社會科學,就是先微觀具體,再宏觀抽象。徐小年簡直認為宏觀經濟學是偽科學。如果市場是個人行為的總和,我們看到的就是壹幅抽象畫,我們無法理解。通過客戶細分,可以逐漸形成壹個大致可以理解的現實畫面,但是是馬賽克,再通過差異化甚至定位個體,就可以形成壹個高清畫面。我們每壹個人現在都生活在零售商的桶裏(前面提到過樂購發明了這個概念),最簡單的反映背景,比如高收入和低收入,然後反映行為和生活方式,比如“精打細算”和“右鍵群體”(右鍵對比)。反過來,我們的消費者也希望得到個性化的尊重,noble希望成為今天的noble。
了解和掌握客戶比以往任何時候都重要。奧巴馬贏得大數據是因為他知道喬治·克魯尼是約旦河西岸40-49歲女性的男神,莎拉·傑西卡·帕克(《欲望都市》主角)是東岸同齡女性的偶像。他還得更細分,搖擺州每個縣每個年齡每個時間在看什麽電視,搖擺州(俄亥俄州)1%選民壹段時間的投票傾向,Reddit的搖擺選民。
對於企業來說,需要從以產品為導向轉變為以客戶(買方)甚至用戶為導向,從關註用戶背景轉變為關註用戶的行為、意圖和意向,從關註交易的形成轉變為關註每壹個交互點/觸點。用戶是從什麽路徑找到我的產品的,決定了他們之前做過什麽,購買後有什麽反饋,是通過網頁、QQ、微博還是微信。
現在來說說第三個。時間就是金錢,炒股就是快魚吃慢魚。用免費的股票交易軟件,有幾秒鐘的延遲,而占美國交易量60-70%的高頻程序化交易,會發現低至1美分的毫秒交易機會。時間又是生命。美國國家海洋和大氣管理局的超級計算機在日本311地震後9分鐘就發布了海嘯預警,為時已晚。時間或機會。現在所謂的購物籃分析,其實並不是真正的購物籃,而是壹張已經結賬的小收據。真正有價值的是,當顧客還在提著購物籃,在瀏覽、試穿、挑選商品的時候,他/她的選擇在每壹次接觸中都受到影響。數據的價值是有半衰期的,最新鮮的時候個性化價值最大,逐漸退化到只有集體價值。當下的智慧是從刻舟求劍到知道時機成熟。原來10年的人口普查是在刻舟求劍,現在的百度遷徙地圖卻在東莞出事的時候體現出來了。當然,現在的不壹定完全準確。事實上,如果沒有更多更長的數據,倉促解讀百度的遷移圖是有可能陷入誤區的。
第四個是安全的。時間有限,就簡單點說吧。也就是說,我們只知道東風是predictiveanalytics,確定借箭目標,開出借草船的藥方,這是壹個prescriptiveanalytics。我們需要處方分析來提高響應能力、降低流失率並吸引新客戶。
錯誤識別就是利用多源數據過濾噪聲,查漏補缺,去偽存真。壹個例子是20多個省市的GDP總和超過全國GDP。我們的GPS有幾十米的誤差,但是結合地圖數據就可以很精確。GPS在城市高樓裏沒有信號,可以結合慣性導航。
小I涉及大數據下的機器智能,這是個大問題,不展開。貼壹段我的文章:有人說,人在“蕭藝”領域是不可替代的。這是前大數據時代的事實。《Moneyball》講的是定量分析和預測對棒球的貢獻。它在大數據背景下存在誤區:第壹,它其實不是大數據,而是壹種已有的數據思維和方法;二是有意無意忽略了偵察兵的作用。從讀者的角度來看,奧克蘭運動家隊總經理比利·比恩用定量分析代替了球探。事實上,在使用量化工具的同時,比恩也增加了偵察的成本。軍功章裏壹半是機器,壹半是人,因為球探測量的是運動員的定性指標(如競爭力、抗壓能力、意誌力等。)那是不能用幾個結構化的量化指標來描述的。大數據改變了這壹切。無意識地記錄人的數字足跡,增強機器學習(尤其是深度學習)理解思想的能力,可能會逐漸改變機器的劣勢。這壹年,我們看到了基於大數據的情感分析、價值分析和個人刻畫。當這些應用於人力資源時,它們或多或少地反映了球探的承諾。