詳細解釋大數據的思想是如何形成的，以及它的價值維度。

比如經濟方面，黃仁宇先生在對宋代經濟的分析中發現了“數理”(即數量分析)的廣泛應用(可惜王安石變法始而無終)。再比如軍隊。不管真假，“向林彪學習數據挖掘”這壹橋段背後的量化分析思想無疑有其現實基礎，甚至可以追溯到2000多年前。孫臏正是通過編造“把10萬個爐子減為5萬個爐子，再減為3萬個爐子”的數據，利用龐涓的定量分析習慣，對其進行誘捕和殺傷。

20世紀五六十年代，磁帶取代了穿孔卡片機，引發了數據存儲的革命。磁盤驅動器馬上發現，它帶來的最大想象空間不是容量，而是隨機讀寫的能力，壹下子解放了數據工作者的思維模式，開始了數據的非線性表達和管理。數據庫應運而生，從分層數據庫(IBM為阿波羅登月設計的，現在CCB還在用)，到網狀數據庫，再到現在的通用關系數據庫。決策支持系統(DSS)起源於數據管理，並在20世紀80年代演變為商業智能(BI)和數據倉庫，為數據分析開辟了道路，即賦予數據以意義。

在那個時代，數據管理和分析最強大的應用是業務。第壹個數據倉庫是為寶潔公司制造的，第壹個萬億字節的數據倉庫是在沃爾瑪。沃爾瑪的典型應用有兩個:壹個是基於retaillink的供應鏈優化，與供應商共享數據，指導其產品設計、生產、定價、配送、營銷的全過程，而供應商可以優化庫存，及時補貨；二是購物籃分析，也就是常說的加啤酒加尿布。關於啤酒和紙尿褲，幾乎所有的營銷書籍都令人信服。我告訴妳，是Teradata的壹個經理編的，人類歷史上從來沒有過。但是，先教育市場，再收獲，是積極的。

僅次於沃爾瑪的樂購，專註於客戶關系管理(CRM)，細分客戶群體，分析他們的行為和意圖，做精準營銷。

這壹切都發生在20世紀90年代。在2000年代，科學研究產生了大量的數據，如天文觀測和粒子碰撞。第四範式是數據庫大師吉姆·格雷提出的，是對數據方法論的改進。前三種範式分別是實驗(伽利略從斜塔上扔下來)、理論(牛頓受壹個蘋果啟發，形成了物理學經典定律)、模擬(粒子加速太貴，核試驗太臟，所以用計算代替)。第四種範式是數據探索。其實這並不新鮮。開普勒根據之前行星位置的觀測數據擬合橢圓軌道，這就是數據法。但是到了90年代，科研數據太多，數據探索成為突出的研究。在今天的學科中，有壹對孿生兄弟，計算XX和XX信息學。前者是模擬/計算範式，後者是數據範式，如計算生物學和生物信息學。有時候計算XX包括數據範式，比如計算社會學，計算廣告學。

2008年，克裏斯·安德森(長尾理論的作者)在《連線》雜誌上寫了壹篇文章《理論的終結》，引起軒然大波。他的主要觀點是，有了數據，就不需要模型，或者說很難獲得壹個可解釋的模型，所以模型所代表的理論是沒有意義的。給妳講講數據，模型，理論。我們先來看壹個大概的圖。

首先，我們在觀察客觀世界時從三個點收集數據。根據這些數據，我們可以對客觀世界有壹個理論上的假設，可以用壹個簡化的模型來表示，比如三角形。可以有更多的模型，比如四邊形，五邊形。隨著觀察的深入，又采集了兩個點。這時候發現三角形和四邊形的模型都是錯的，於是確定模型是五邊形，這個模型反映的世界就在那個五邊形裏，卻不知道真正的時間是圓的。

大數據時代的問題在於，數據多而雜，無法再用簡單明了的模型來表達。這樣，數據本身就成了模型。嚴格來說，數據和應用數學(尤其是統計學)已經取代了理論。安德森以谷歌翻譯為例。統壹的統計模型取代了各種語言的理論/模型(如語法)。如果能從英語翻譯成法語，就可以從瑞典語翻譯成漢語，只要有語料庫數據。谷歌甚至可以翻譯Clayton(StarTrek編譯的語言)。安德森提出的是關聯性而非因果性的問題，勛伯格(以下簡稱老舍)只是撿了人的智慧。

當然，科學界並不認同理論的終結，認為科學家的直覺、因果性和可解釋性仍然是人類取得突破的重要因素。有了數據，機器就能發現隱藏在當前知識版圖中的未知部分。沒有模型，知識版圖的上限就是機器線性增長的計算能力，無法擴展到新的空間。人類歷史上，每壹次知識疆域的跨越式擴張，都是天才們和他們的理論首先吹響的號角。

2010左右，大數據浪潮卷起，這些爭論很快被淹沒。看Google trends，“bigdata”這個詞當時就跳了起來。小號手有幾個，壹個是IDC，每年給EMC壹份digitaluniverse的報告，上升到Zebyte的範疇(給妳壹個概念，現在硬盤是TB，1000太=1拍，阿裏和臉書的數據是幾百拍，1000拍=1拍，百度是個位數。壹個是麥肯錫，它出版了《大數據:創新、競爭和生產率的下壹個前沿》。壹個是《經濟學家》，重要作家之壹是肯尼斯，他和老舍同處大數據時代。庫克耶；還有壹個是Gartner，發明了3V(大、雜、快)。其實這個3V是2001編的，只是在大數據的背景下有了新的解讀。

在我國，黃總、總也是在2011左右開始呼籲關註大數據。

2012子沛的《大數據》壹書，對教育政府官員做出了巨大貢獻。老舍和庫克耶的《大數據時代》提出了三大思想，現在已經奉為圭臬，但不要把它們當成放之四海而皆準的真理。

例如，不要對整個數據集進行采樣。實事求是地說，1。沒有壹套完整的數據，數據都是孤島；2.全集太貴了。鑒於大數據信息密度低，是貧礦，投入產出比不壹定好；3.抽樣在宏觀分析中仍然有用，蓋洛普用5000個樣本擊敗百萬次調查的做法仍然具有現實意義；4.抽樣應具有隨機性和代表性。采訪火車上的農民工，得出他們都買了票的結論，這不是壹個好的抽樣。現在只做固話抽樣調查不好(手機是大頭)，基於國外Twitter抽樣也不完全有代表性(不包括老年人)；5.采樣的缺點是有百分之幾的偏差，甚至會丟失黑天鵝的信號。所以，在全套數據存在且可分析的前提下，全量是首選。總量>好的抽樣>；質量不均勻。

況且雜合是因為準確。擁抱雜糅(這樣的客觀現象)是壹種很好的態度，但不代表喜歡雜糅。數據清理比以前更重要了。如果數據失去了識別性和有效性，就應該扔掉。老舍引用Google的結論，少數高質量的數據+復雜的算法被大量低質量的數據+簡單的算法打敗，來證明這種思維。彼得的研究是網絡文本分析，這是真的。然而，谷歌的深度學習已經證明這並不完全正確。對於信息維度豐富的語音和圖片數據，需要大量的數據和復雜的模型。

最後，要有關聯性，而不是因果性。對於大量的小決策，相關性是有用的，比如亞馬遜的個性化推薦；對於小批量的重大決策，因果關系仍然很重要。就像中醫壹樣，只到了相關的階段，卻沒有解釋，也不能斷定某些樹皮和蟲殼就是治愈的原因。發現西醫的相關性後，要做隨機對照試驗，排除壹切可能導致“治愈果”的幹擾因素，獲得因果關系和可解釋性。商業決策也是如此。相關性只是開始。它取代了拍腦袋的假設和直覺，而後面驗證因果關系的過程依然重要。

把大數據的壹些分析結果在相關性上實現也是壹種倫理需要，動機不代表行為。預測分析也是壹樣，不然警察預測人會犯罪，保險公司預測人會生病，社會會很麻煩。大數據算法極大的影響了我們的生活，有時候感覺還挺悲哀的。就是算法覺得借不借都能拿到錢。谷歌每次調整算法，很多線上業務都會因為排名靠後而受到影響。

時間不多了。我會貼壹些關於價值維度的東西。大數據的思想中很重要的壹點是，除了決策的智能，還有數據本身的價值。這壹點我就不贅述了。引用馬雲的壹句話，“信息的起點是我認為我比別人聰明，數據的起點是別人比我聰明；信息是妳把數據編輯後給別人的，數據是妳收集後給比妳聰明的人的。”大數據能做什麽？值V如何映射到其他3V和時空象限？我畫了壹幅畫:

並貼出解釋。體積空間維度中的“見微”與“知”。小數據是微妙的和個人的。我曾在《壹代宗師》中形容為“看見自己”；大數據了解並反映自然界和群體的特征和趨勢。我把它比作“見世面，見眾生”。“者”促“微”(比如把人群細分成桶)，拉“微”(比如把同類人的喜好推薦給個人)。“微”和“著”也體現了時間維度。個人價值在最初產生衰變時最大，最終隨著時間退化為集體價值。

速度的時間維度中的“現在”和“全部清除”。在時間的原點，當下就是靈光壹閃之間的實時智慧。結合過去(負軸)和預測未來(正軸)，我們都可以理解，也就是我們可以獲得永恒的智慧。西遊記中對真假美猴王的描述，壹個是“知天知地知變”，壹個是“知天知地知前後”，正好對應。為了實現普遍知識，我們需要總體分析、規定分析和處置分析(需要采取什麽行動來使設定的未來發生)。

變體空間維度中的“錯誤辨析”與“意義理解”。基於海量多源異構數據，我們可以甄別和過濾噪聲，查漏補缺，去偽存真。理解達到了更高的層次，從非結構化數據中提取語義，使機器能夠窺探人的思想境界，達到了結構化數據分析過去無法達到的高度。

先看它，對宏觀現象規律的研究早就有了。大數據的知識有兩個新特點。壹個是從抽樣到總量。比如央視的調查“妳幸福嗎？”去年是街頭抽樣。不久前中國經濟生活調查關於幸福城市排名的結論，是基於654.38+萬份問卷(654.38+07題)的抽樣得出的。清華行為與大數據實驗室做的幸福指數(跟隨熊婷、我和本群很多朋友的參與)是基於新浪微博數據全集(感謝老王)。這些數據是人們的自然表達(而不是對問卷的被動回答)，有語境，所以更真實，更有解釋力。是空氣、房價還是教育讓北上廣不幸福？微博中更容易傳播的正面情緒還是負面情緒，數據告訴妳答案。《中國經濟生活調查》說“我們甚至能聽到最小的聲音”，這是誇張的說法。抽樣和傳統的統計分析方法采用壹些簡化的模型進行數據分布，忽略了異常和長尾。總分析能看到黑天鵝，聽到長尾的聲音。

另壹個特點是從定性到定量。計算社會學是定量分析在社會學中的應用。壹批數學家和物理學家成為了經濟學家和自由主義者，現在他們也可以選擇成為社會學家。國泰君安3I指數也是壹個例子。基於幾十萬用戶的數據，主要反映投資活躍度和投資收益水平，建立量化模型推斷整體投資景氣度。

再看微觀，我覺得大數據真正的差異化優勢在於微觀。自然科學是宏觀的，具體的，微觀的，抽象的，那麽大數據就很重要。我們更註重社會科學，就是先微觀具體，再宏觀抽象。徐小年簡直認為宏觀經濟學是偽科學。如果市場是個人行為的總和，我們看到的就是壹幅抽象畫，我們無法理解。通過客戶細分，可以逐漸形成壹個大致可以理解的現實畫面，但是是馬賽克，再通過差異化甚至定位個體，就可以形成壹個高清畫面。我們每壹個人現在都生活在零售商的桶裏(前面提到過樂購發明了這個概念)，最簡單的反映背景，比如高收入和低收入，然後反映行為和生活方式，比如“精打細算”和“右鍵群體”(右鍵對比)。反過來，我們的消費者也希望得到個性化的尊重，noble希望成為今天的noble。

了解和掌握客戶比以往任何時候都重要。奧巴馬贏得大數據是因為他知道喬治·克魯尼是約旦河西岸40-49歲女性的男神，莎拉·傑西卡·帕克(《欲望都市》主角)是東岸同齡女性的偶像。他還得更細分，搖擺州每個縣每個年齡每個時間在看什麽電視，搖擺州(俄亥俄州)1%選民壹段時間的投票傾向，Reddit的搖擺選民。

對於企業來說，需要從以產品為導向轉變為以客戶(買方)甚至用戶為導向，從關註用戶背景轉變為關註用戶的行為、意圖和意向，從關註交易的形成轉變為關註每壹個交互點/觸點。用戶是從什麽路徑找到我的產品的，決定了他們之前做過什麽，購買後有什麽反饋，是通過網頁、QQ、微博還是微信。

現在來說說第三個。時間就是金錢，炒股就是快魚吃慢魚。用免費的股票交易軟件，有幾秒鐘的延遲，而占美國交易量60-70%的高頻程序化交易，會發現低至1美分的毫秒交易機會。時間又是生命。美國國家海洋和大氣管理局的超級計算機在日本311地震後9分鐘就發布了海嘯預警，為時已晚。時間或機會。現在所謂的購物籃分析，其實並不是真正的購物籃，而是壹張已經結賬的小收據。真正有價值的是，當顧客還在提著購物籃，在瀏覽、試穿、挑選商品的時候，他/她的選擇在每壹次接觸中都受到影響。數據的價值是有半衰期的，最新鮮的時候個性化價值最大，逐漸退化到只有集體價值。當下的智慧是從刻舟求劍到知道時機成熟。原來10年的人口普查是在刻舟求劍，現在的百度遷徙地圖卻在東莞出事的時候體現出來了。當然，現在的不壹定完全準確。事實上，如果沒有更多更長的數據，倉促解讀百度的遷移圖是有可能陷入誤區的。

第四個是安全的。時間有限，就簡單點說吧。也就是說，我們只知道東風是predictiveanalytics，確定借箭目標，開出借草船的藥方，這是壹個prescriptiveanalytics。我們需要處方分析來提高響應能力、降低流失率並吸引新客戶。

錯誤識別就是利用多源數據過濾噪聲，查漏補缺，去偽存真。壹個例子是20多個省市的GDP總和超過全國GDP。我們的GPS有幾十米的誤差，但是結合地圖數據就可以很精確。GPS在城市高樓裏沒有信號，可以結合慣性導航。

小I涉及大數據下的機器智能，這是個大問題，不展開。貼壹段我的文章:有人說，人在“蕭藝”領域是不可替代的。這是前大數據時代的事實。《Moneyball》講的是定量分析和預測對棒球的貢獻。它在大數據背景下存在誤區:第壹，它其實不是大數據，而是壹種已有的數據思維和方法；二是有意無意忽略了偵察兵的作用。從讀者的角度來看，奧克蘭運動家隊總經理比利·比恩用定量分析代替了球探。事實上，在使用量化工具的同時，比恩也增加了偵察的成本。軍功章裏壹半是機器，壹半是人，因為球探測量的是運動員的定性指標(如競爭力、抗壓能力、意誌力等。)那是不能用幾個結構化的量化指標來描述的。大數據改變了這壹切。無意識地記錄人的數字足跡，增強機器學習(尤其是深度學習)理解思想的能力，可能會逐漸改變機器的劣勢。這壹年，我們看到了基於大數據的情感分析、價值分析和個人刻畫。當這些應用於人力資源時，它們或多或少地反映了球探的承諾。

上一篇:世界上最古老的足球獎杯？

下一篇:妳對圓明園及其設計有什麽看法？[500多字]