最近的新聞中,用戶在看似正常的消費或取款後,發現自己的卡被盜刷,屬於欺詐交易。欺詐交易是銀行、保險、證券等行業的壹種危害現象,給人們的經濟和生活帶來巨大的損失和威脅。作為世界難題,發達國家已經輔以強大的信息管理系統。通過數據挖掘和人工智能來輔助檢測、識別和評估欺詐交易,反欺詐技術手段得到了有效提高。
CRISP-DM是跨行業數據挖掘的標準流程(如下所示),是迄今為止最流行的數據挖掘流程參考模型。圖中所示的各種大小節點之間的關聯會是循環的、粗糙的,過程不是關鍵。關鍵是數據挖掘的結果最終可以嵌入到業務流程中,以提高業務效率和效益。
CRISP-DM與SPSS開發的SPSS Modeler有很好的契合,它支持三種統計方法論:嚴格設計、半實驗研究和部分智能。它是世界上最好的統計軟件之壹。這次使用SPSS Modeler18作為建模工具。利用不真實的醫保數據(投保人信息、醫療機構信息表、理賠信息表、醫療診療信息表)作為內部業務數據,不真實的小額貸款數據作為第三方客戶數據源,對欺詐交易發現進行數據挖掘建模和分析,相信對其他行業也有借鑒意義。
在CRISP-DM的商業理解階段,首先對企業的資源、需求、風險、成本收益等情況進行評估,從而確定數據挖掘的目標。
業務梳理醫療保險欺詐風險分析如下:
1)國內醫療保險詐騙形式
主要包括:冒名頂替(即偽造行醫資格);造成欺詐(更改非醫保支付疾病(如車禍、工傷、打架、自殺等。)納入醫保支付的疾病);誇大損失;票據詐騙;偽造醫療文件;偽造病床(即掛床住院);編造住院、門診特殊疾病虛假信息“騙保”。
2)詐騙罪的主體
在“第三方支付”的制度下,醫務人員和參保人可能會串通起來詐騙保險機構。
主要有三個角色:投保人、醫療機構、保險公司。欺詐的可能來源是投保人和醫療機構。結合業務特點的數據挖掘的目標和思考方向如下:
數據異常檢測;
對被保險人進行分類,利用用戶畫像,用外部數據預測現有和潛在客戶的欺詐得分;
醫療機構信息分類研究:
醫療索賠檢測。
聲明:鑒於篇幅所限,本文為概述,具體思路和算法將在以後專題介紹。
第二,數據和模型分析
2.1數據異常檢測
很多數據異常可以從業務邏輯上直接憑經驗判斷。比如某客戶在壹段時間內理賠的頻率和金額大幅增加,被保險人的賠付金額與被保險人的醫療費用數據之間的關系出現異常,可視為涉嫌欺詐,相關流程不會進行技術論證。
本福德定律和異常檢測是審計、證券等行業廣泛使用的異常監測方法。所謂異常檢測就是發現與大多數對象不同的對象,其實就是發現離群點。我們可以同時使用多種異常檢測方法來提高檢測欺詐交易的命中率。本福德定律是壹個有趣的定律,它揭示了海量數據中第壹位數字的分布特征:數據的第壹位數字越大,出現的頻率越低。通過聚類建模,醫療機構號,支付金額,理賠次數等。作為輸入變量:
可以得到理賠門檻大於50、聚類距離門檻大於0.2的機構涉嫌欺詐報告:“醫療衛生機構編號:10083642887,醫療衛生機構細分:心理學,醫療衛生機構理賠數量為58”“醫療衛生機構編號:10085843968,醫療衛生機構細分”。
為了擴大異常數據的搜索範圍,使用壹種特殊的異常檢測方法——異常來建模:
獲得異常偏離指數大於1.5並在下表中通過異常標記為“T”的可疑欺詐投保人的列表:
通過查看模型的結果,表格還顯示了導致該記錄被視為異常值的三個最重要的影響因素和影響指標。顯而易見,包括DIAG診斷、程序治療和MEDcode醫療措施在內的因素是導致涉嫌欺詐的重要因素。
經過反欺詐部門的審核,可以比較兩種算法的命中率。
2.2對投保人的欺詐分析
包括集群遷移、欺詐評分和用戶畫像。
2.2.1客戶集群遷移
壹般來說,在短時間內,無論是機構還是個人的狀態和行為模式都比較穩定,不會有太大的變化。如果客戶在壹年內甚至半年內改變細分群體,可以提交涉嫌欺詐報告。聚類建模選擇幾個關鍵的輸入變量(參考RFM模型),如支付金額、支付次數、保險條款,分別在第壹年和第二年進行聚類建模,並標記組變換,從而得到涉嫌欺詐的名單。
在客戶的聚類分析中,可以發現壹些記錄數量較少的群體,在營銷活動中往往被忽略,但在欺詐發現中卻是壹個值得關註的異常行為群體。
2.2.2欺詐評分:單分類器和集成學習。
個人信用體系建設在發達國家已經非常成熟,知名銀行業涉及授信審批、額度確定、反欺詐等專業應用。在美國銀行業,每年8000億美元的信用卡刷卡量僅造成約1億美元的損失,約占總數的0.02%,其成熟的數據挖掘技術成效顯著。
欺詐評分可以分為三個主要步驟:變量轉換、對數回歸模型生成和評分轉換。將樣本隨機分為兩部分:壹部分用於建立模型,另壹部分用於檢驗模型。變量的寧濱(寧濱)實際上損失了壹些數據,但對於業務服務的需求,必須考慮寧濱變量更便於業務人員使用和理解。
輸入邏輯回歸模型是每個變量的權重值。Woe值的計算公式:WOE=ln(好客戶比例/懷孕客戶比例)*100。
變量轉換包括以下步驟:
1)剔除冗余變量(只保留壹個相關系數大的變量);
2)連續變量的合並和離散變量的類別合並;
3)IV值和WOE值的計算。為了提高預測能力,盡量篩選IV值大於等於0.02小於等於0.05的變量。
上圖是變量轉換數據流的模型和輸出的壹部分。可以看出,第壹次輸出表格時,作為離散變量的信用卡數據可以繼續計算其違約率進行轉換分類。
逐步法logistic回歸建模後,回歸系數要用統計學方法進行轉換,分數轉換的步驟涉及壹個量表編制的業務量化過程,暫不詳述。預測模型可以用roc、k-s指數法等進行檢驗。記分卡測試需要反映哪個細分市場最具差異化,因此選擇ks指數法:
壹般來說,KS & gt0.2可以認為該模型具有較好的預測精度。
回歸是單分類器的基本常用算法之壹,也可以用決策樹C5.0建模
看C5.0模型,可以得出客戶欺詐的八條規律。根據這些規律,我們可以在欺詐交易前了解壹些顯著的特征,從而發現客戶欺詐的跡象,盡早采取防範措施。在規則1中可以看到,年齡在27歲以下,信用卡類型為“支票”,國籍為希臘和南斯拉夫的客戶是欺詐交易的高風險客戶群體之壹。
雖然過去廣泛使用單壹分類器,但它有明顯的缺點。近年來,美國銀行大量采用樹算法族。目前集成學習有兩種:基於Boosting和基於Bagging的,最近還有梯度增長樹算法。這些集成的學習方法避免了變量的相互依賴,預測和分析能力逐漸增強,應用範圍廣泛,在反欺詐等領域被證明非常有效,是我們專業人士關註的方向。
Boosting算法的主要思想是在T次叠代中增加每次叠代中誤分類樣本的重采樣權重,以便在下壹次叠代中更加關註這些樣本。以這種方式訓練的多個弱分類器被加權和融合以產生最終結果分類器,這提高了弱分類算法的準確性。我們使用boosting來設置50次決策樹叠代:
建模和結果:
2.2.3用戶畫像
近年來火熱的用戶畫像是為了公司對客戶群有更多感性認識,輔助營銷部門精準營銷,利用內部數據和外部(第三方)數據建立大規模數據倉庫系統,這已經成為公司的核心價值資源。用戶通常有幾個標簽體系,比如人口統計學、社會群體特征、金融業務特征、個人愛好等等。通過對用戶畫像的研究,為客戶建立各種標簽體系,可以幫助我們分分鐘了解客戶。
壹般來說,銀行的交易數據、個人屬性數據、消費數據、信用數據、客戶數據都很豐富,用戶畫像需求很大,實踐較早。現在很多社會興趣愛好都是第三方補充的。保險行業的產品都是長期產品,保險客戶再次購買保險產品的轉化率很高,這也將是用戶畫像的必經過程。
根據業務經驗和集成算法理論(當數據集較大時,可以分成不同的子集,分別訓練,然後合成分類器),比如銀行、電信等大公司的客戶數據,可以先根據客戶價值的高低進行分類(長尾理論),然後分別對高價值客戶和低價值客戶建立不同類型的模型,以達到更好的分類效果。針對每次不同而豐富的營銷業務需求,第壹步從龐大的客戶標簽體系中構建標簽特征子集,然後通過LR(排名模型)計算標簽影響因子並分配標簽權重,使排名靠前的標簽成為業務人員需要了解的目標用戶畫像,同時能夠為營銷部門精準提供相應的營銷客戶名單,大大提高業務效率。
假設開始使用的匿名數據的異常檢測結果為真,在投保人信息表中添加客戶屬性“是/否欺詐”並根據結果單獨標記,使用k-Means建模並輸出每個聚類組的欺詐率,查看結果報告:
從輸出結果來看,可以重點關註欺詐率較高的聚類的群體特征標簽,可以直接在spss modeler中查看聚類特征對比,得到以下對聚類7的模型特征描述,實現了分分鐘就能知道欺詐交易的陌生人。
2.3醫療機構的分類
醫療機構的分類研究也可以先用聚類遷移分析法(與被保險人聚類遷移法相同)。國外反欺詐技術已經深度融入到各個機構的管理流程中,並取得了良好的效果。
2.4醫療索賠的檢測
在醫療服務過程中,各機構的處理方式中,人工審核欺詐的難度更大,成本更高。結合臨床路徑的理念和經驗,借助數據挖掘技術建立模型,自動識別每壹項具體醫療服務的系列特征,如放療的療程、化療的程度等,是推動醫保行業欺詐檢測的重大進步。國內也開始了更深入的研究和應用。
第三,總結