傳統的信用評估模型是基於壹個人的借款歷史和還款表現,通過邏輯回歸來判斷這個人的信用情況。大數據征信的數據來源非常廣泛,包括電子商務、社交網絡、搜索行為等,都會產生大量的數據。
大數據信用可以通過我們在互聯網上留下的這些“腳印”清晰地描述壹個人,但如何控制數據來源的“量”和“度”,目前各個機構還在嘗試。更重要的是,人物的最終“畫像”與個人信用有多大關系,仍有爭議。
此前,有接近監管部門的人士對《第壹財經日報》記者表示,個人征信牌照遲遲未發放的原因之壹是監管部門對大數據征信的商業應用存有疑慮。特別是以人臉識別為代表的關鍵技術的可靠性有待進壹步檢驗。
此外,“另壹個更重要的癥結在於行政監管與商業發展的矛盾。”該人士表示,個人征信市場的參與者越來越多,遠不止8家申請牌照的機構。市場要商業化,監管方式要改進。
什麽是大數據征信?
據FICO中國區總裁陳建介紹,征信的本質是收集和記錄信用信息,經過處理後提供給決策者。現在,得益於大數據、雲計算、人臉識別、深度算法等技術的進步,征信有了更廣泛的意義和用途。
“只要對消費者的特征描述和風險判斷有顯著作用,就可以稱之為征信。”陳建認為,現在所有的信息都可以成為信用數據,經過分析可以用來證明壹個人或企業的信用狀況。因為數據覆蓋面廣,維度多,所以形成了廣義的征信,也就是大數據征信。
陳建表示,有價值的大數據有幾個因素:壹是必須覆蓋面廣,用戶足夠多,比如來自銀聯、電信的數據;第二個維度要有效,能有效轉化為結構化數據,比如電商數據;第三,信息要穩定。
然而,今年7月在上海外灘舉行的“2015上海新金融年會”上,中國人民銀行[微博]征信中心副主任王曉磊提出了壹個直白的問題,“不知道妳說的征信是什麽意思”?
央行征信系統是壹個“出借人之間的信息共享數據庫”,采集的主要數據是身份信息、信用信息、非金融負債信息和部分公共信息。因此,王曉磊對信用調查的基本定義是“從貸款人那裏收集借款人信息”。
另壹個“糾結”的概念在於,王曉磊認為,貸款機構的“征信”是基於貸款機構內部信息的風險管理過程,而征信行業的“征信”是為貸款機構風險管理提供外部信息支持的活動,征信機構應該是純粹獨立的第三方。
按照這個定義,我們現在說的大數據征信已經跳出了傳統的“征信”範疇。不再局限於財務信息,也打破了“采集者與信息生成無關”的獨立第三方原則。
比如芝麻信用、前海征信、騰訊征信。壹方面,他們的數據來源主要來自母公司阿裏、平安和騰訊。另壹方面,他們的兄弟公司都參與放貸業務,比如阿裏小貸。
雖然大數據征信的定義和效用還存在爭議,但對於無法接入央行征信系統、面臨快速發展的互聯網金融行業來說,利用大數據幫助確定風險、發展業務是必然選擇。
從應用來看,大數據征信已經從金融業務蔓延到生活服務。其中,兩大核心價值是:防範欺詐風險和信用風險。簡單來說,就是要證明“妳就是妳”,描述“妳是什麽樣的人”。
如何證明“妳就是妳”
無論是傳統金融領域還是互聯網金融領域,對客戶進行信用評估的前提是知道這個人就是自己。因此,如何證明“妳就是妳”是大數據征信首先要解決的問題。
特別是,隨著越來越多的金融服務基於互聯網,“反欺詐”的挑戰也在增加。“身份認證”的重要性在各種監管文件中被反復強調,各機構也在不斷探索如何利用新技術在線實現身份驗證。
其中,在指紋、虹膜、人臉識別等壹系列生物特征識別技術中,人臉識別因其高度的成熟度和準確性,以及使用的便捷性而進壹步普及。包括騰訊征信、芝麻征信在內的很多個人征信機構都成立了自己的人臉識別技術團隊。
此前,在騰訊征信北京媒體溝通會上,為騰訊財付通、微眾銀行、騰訊征信提供圖像和模式識別技術支持的優圖團隊也展示了“人臉識別”在“反欺詐”中的應用,即如何證明“妳就是妳”。
根據現場演示,上傳身份證照片和自拍照片並與公安部的信息進行比對後,“人臉識別”的另壹個關鍵步驟是活體檢測。通過讀取隨機的數字串,分析語音、唇語等信息,可以防止人們通過視頻、照片等手段冒充用戶。
據了解,在今年國際權威人臉識別數據庫LFW中,騰訊優圖團隊在人臉驗證測試中取得了99.65%的準確率。目前,微信的“人臉識別”技術已經在騰訊征信、微眾銀行、微證券開戶等場景進行了嘗試。
雖然人臉識別的準確率已經達到很高的水平,但是這項技術的商業應用才剛剛起步,其有效性和安全性仍然受到質疑。
優圖團隊R&D總監黃飛躍也表示,目前還不能說技術已經100%成熟,但適用於壹些特定的應用環境。其中金融領域的身份驗證條件更好,因為用戶為了通過驗證往往會配合。
芝麻信用首席科學家余表示,整個反詐騙產品從身份認證到信息驗證再到網聯,技術含量非常高。以身份認證為例,有很多方式,比如信息交叉比對、人臉識別技術、KBA問答認證等等。
他以網聯技術為例說明,它可以將所有已經違約的身份、手機、設備等關鍵點分門別類地保留在風險數據庫中,我們可以通過壹層或多層的關聯找出所有的風險點供合作夥伴參考,這需要非常高的技術和硬件。
有爭議的大數據信用報告
解決了“身份認證”的問題之後,接下來就是評估妳的信用,也就是描述“妳是壹個什麽樣的人”。
在關於大數據征信的文章中,我們經常可以看到壹些案例。比如經常半夜上網的用戶,可能會被認為沒有穩定的工作,信用評分可能會降低。買雙門冰箱的用戶可能因為有家庭而信用分更高,微博更新頻繁的用戶可能因為社交活躍而信用分更高。
“這些考慮被過度放大了,或許這只是壹個用戶的個人習慣。但是每個因素與個人信用有多大關系呢?我們無法完全解釋,尤其是在數據來源不夠豐富的情況下,這些判斷是欠缺的。”芝麻信用技術專家荊以亮說。
冰劍科技CEO顧淩雲在回國前領導開發了ZestFinance的前四代風控模型。在他看來,大數據征信的核心不是對某壹個變量的極度依賴,而是通過非線性算法,把很多只有很小影響的變量整合起來,從而使模型的整體性能更好。
“大數據本身不壹定是大量的數據。我們強調的是,變量覆蓋的信息維度要更多、更均衡,然後通過各種復雜的算法如淺層學習、深度學習等,更有效地組合這些變量。”他說。
王曉磊認為,互聯網記錄了以前借款人未記錄的行為,獲得了以前無法獲得或價格昂貴的數據,為貸款人了解借款人是誰、是否有還款能力和意願提供了新的渠道和方法。但是,如何利用相關信息,還需要進壹步研究和驗證。
王曉磊引用了政策與經濟研究委員會(PERC)2014的壹項研究成果,稱非財務信息在信貸決策中的作用是有限的。比如社會信息對判斷借款人的還款意願和能力沒有預測力。
“將水、電、煤、有線電視、手機等非金融信息納入征信系統,顯著提高了信用檔案薄的人的信用獲取能力,但對信用檔案厚的人邊際效應不大。”她說。
“只有好樣本,沒有壞樣本,不可能建立有效的信用評價機制。”宜信致誠征信董事總經理趙輝表示,電商、支付、社交等數據只能作為信用審核的參考值,而貸後數據是強參數。
互聯網公司可能不認同這種說法。
騰訊征信總經理吳丹告訴記者,從這段時間內測的結果來看,模型加入社交數據後,其風控能力提升了20%~25%,尤其是在小額信貸領域。因為,通常情況下,幾百塊錢的貸款,違約的原因不是借款人的還款能力而是他的意願。
余說,通過大量的研究,已經證明人們的行為數據與他們的信用直接相關,因為很難說謊。從這段時間的公測結果來看,用戶的芝麻分越高,其貸款違約率越低,兩者之間的關系是單調線性的,這也證明了芝麻分在信用評估中的有效性。
然而,僅僅依靠互聯網上的數據不足以建立壹個強大的信用評估系統。顯然,大數據征信的所有市場參與者都很清楚這壹點。“未來,將傳統數據與創新數據相結合壹定是我們的歸宿。”芝麻信用總經理胡濤總結道。
顧淩雲告訴記者,風控模型本質上是對壹個人財務償還能力的預測和評估。因此,盡管ZestFinance使用了大量的非傳統信用數據,但在大多數風險評估模型中,傳統信用數據(銀行信用數據)仍占據壹定的比例,平均約為40%。