近年來,數據交易機構如雨後春筍般出現,“數據變現”成為很多有數據積累的傳統企業新的賺錢方法。目前中國大數據需求端以互聯網公司為主,覆蓋面不廣。在O2O的趨勢下,大型互聯網廠商試圖引入外部數據來支撐金融、生活、語音、旅遊、健康、教育等各種服務。
但在具體領域或行業,我國普遍沒有形成數據采集、處理、分析、應用的成型鏈條,大量數據源沒有被激活,因此大部分數據所有者沒有將數據價值外化的路徑。例如,醫療和健康應用程序收集了大量數據,但它們不會像那樣將數據出售給制藥公司。與國外相比,中國的政府、公共服務和農業應用基本沒有,電信和銀行更不可能與外部數據發生碰撞。
另外,其實數據交易本身就是壹個悖論。數據作為壹種商品,具有壹定的特殊性。我可以給別人用,不需要任何消費,在市場上可以賣很多次。這就產生了壹個問題。如果妳在市場上出售這個數據,按照經濟學的觀點,它的價值為零。妳賣給我,我就可以以更低的價格賣給別人,所以數據交易理論上是不可行的。
大數據概念流行起來後,很多機構覺得數據是個寶,於是積累了很多零碎的數據放在那裏。能起到什麽作用不得而知。在與很多真正想用數據做點事情的機構合作中,我們發現即使是政府機構這樣的權威數據持有者,也存在數據缺失、數據錯誤、噪音等諸多問題。
我們常說大數據用大數據的方法,小數據用小數據的方法。完美的數據永遠不能等待。但是這會導致什麽問題呢?在實際的項目實施過程中,我們的數據科學家要花費大量的時間進行數據清理,這其實是對本就緊缺的數據人員的浪費。
理論上我們國內有很多數據,但是不同部門的數據存在於不同的地方,有不同的格式。整合政府內部各部門的數據本身就已經是很大的事情了,更不要說大規模的數據開放了。同時,數據開放面臨的壹個嚴重問題是隱私,脫敏遠遠不夠,隱私是個無底洞。比如我們拿壹個人三個月的支付寶數據,我們很容易知道這個人今天在門口的便利店買了壹瓶水,昨天在淘寶買了壹個沙發,每三個月就會有壹萬元的支出。那麽我們就很容易推斷這個人只是換了壹個地方租房子,可以了解他的消費習慣。這些數據其實是完全脫敏的,沒有名字,沒有編號,但不妨礙我們通過算法完整地勾勒出這個人的畫像。
2.實際技術和商業還有很長的路要走。
隨著大數據產業的發展,技術和商業之間仍然存在巨大的差距。首先是數據分析技術本身。為了實現數據價值的實現,數據源企業嘗試各種方法,甚至組建自己的數據分析團隊。但數據分析是個技術活,1%的誤差會極大影響市場份額。術業有專攻,數據變現還是需要專業的數據分析人才。
隨著大數據概念的火熱,越來越多的公司在做大數據,產品五花八門。好像誰都可以涉足數據建模,但是現在數據分析的技術、方法、模型、算法都有了很大的提升,和過去六七十年代完全不壹樣了,並不是做幾個SAAS軟件或者RAAS軟件就是大數據了雖然短期內市場火爆,但長期來看這條路是走不通的。大數據產業發展,技術是唯壹。
其次,中國的數據有自己的特點。比如金融行業,目前大部分銀行使用的是風險記分卡,利用專家經驗定義風險變量,基於定性理解進行評分,並通過事後風險審核對記分卡進行優化,風險預警功能較差。雖然央行信貸中心和國內少數領先銀行使用風險評分模型,但模型方法相對陳舊。比如央行使用的FICO評分模型,就是80年代基於logistic回歸算法的評分系統。Logistic回歸算法適合處理線性數據,但實際問題往往是非線性的,尤其是在信用風險評估場景中。此外,FICO模型沒有對中國的具體業務場景進行細分,建模邏輯不完全符合中國的實際情況,導致準確性不足,風險預警能力較差。基於此,中國人民銀行征信中心首次與國內大數據公司合作。在此次合作中,普林科技應用了國際領先的大數據建模與分析技術,使用了決策樹隨機森林、AdaBOOST、GBDT、SVM等算法。通過對信用報告的數字化解讀和深入洞察,準確預測違約風險,形成對貸款審批和貸款管理的指導。新模型區分好賬戶和壞賬戶的能力遠高於行業平均水平。這次合作說明中國的大數據問題需要更多適應國情和本土技術人才的解決方案,這對我們的市場提出了新的問題。
3.人才稀缺
我們國家發展大數據最大的優勢是市場大,最大的劣勢恰好是缺乏相應的人才,非常嚴重。首先,在國際市場上,我們要和國外公司爭奪人才,但是國外的大數據行業也很火熱。無論在國內還是國外,與企業爭奪人才都是壹項艱巨的事業。比如,在世界上最好的大學之壹的普林斯頓大學,很難找到數學家。人才很容易被大公司挖走,每年都有非常優秀的數據分析人才被企業挖走。因此,它不僅是壹個口頭上的談論,而且是壹個迫切需要解決的問題。大數據是壹門交叉學科,涉及統計學、管理編程等學科,知識點復雜,缺乏系統的學習教程。