(電子商務(wù)研究中心訊) 近年來,伴隨移動互聯(lián)網(wǎng)、虛擬現(xiàn)實等技術(shù)的飛速發(fā)展,銀行服務(wù)模式日趨多樣化。在客戶享受靈活便捷服務(wù)的同時,銀行欺詐風(fēng)險呈現(xiàn)出更加隱蔽、專業(yè)的特點,發(fā)展出更多的作案手法和表現(xiàn)形式。傳統(tǒng)欺詐檢測通常依賴專家規(guī)則、黑名單庫等方法,已經(jīng)不能適應(yīng)新的欺詐挑戰(zhàn)。銀行亟需研究并應(yīng)用先進的機器學(xué)習(xí)算法,以數(shù)據(jù)價值為驅(qū)動建立智能化的風(fēng)險預(yù)測模型,以此作為欺詐風(fēng)險防范的強力手段。
一、銀行反欺詐發(fā)展趨勢
國內(nèi)外銀行在傳統(tǒng)反欺詐管理中主要依賴專家經(jīng)驗,通過人工方式制定檢測規(guī)則,當(dāng)申請或交易信息與反欺詐規(guī)則匹配后即執(zhí)行相應(yīng)的業(yè)務(wù)策略。這種管理模式得出的反欺詐規(guī)則存在一定的局限性,不能枚舉所有業(yè)務(wù)場景,無法對各類欺詐行為進行全面覆蓋。與此對應(yīng),欺詐者會針對性的對已有規(guī)則進行回避,導(dǎo)致專家規(guī)則處于被動調(diào)整的位置,無法跟上欺詐手段的更新?lián)Q代[1, 2]。另外,當(dāng)專家規(guī)則積累達到一定數(shù)量后誤報率通常會比較高,能夠影響到實際風(fēng)險決策制定和實際業(yè)務(wù)開展。
機器學(xué)習(xí)是一種重要的金融科技創(chuàng)新手段,近年來在國內(nèi)外金融機構(gòu)和金融科技企業(yè)中被嘗試應(yīng)用到風(fēng)險防范、反欺詐等領(lǐng)域。例如花旗銀行、美國銀行、匯豐銀行等機構(gòu)廣泛應(yīng)用邏輯回歸、神經(jīng)網(wǎng)絡(luò)等技術(shù)以提升欺詐識別能力;京東金融與ZestFinance組建的合資公司以數(shù)據(jù)挖掘建模為核心競爭力,在反欺詐領(lǐng)域深入應(yīng)用機器學(xué)習(xí)技術(shù)以發(fā)揮大數(shù)據(jù)價值。機器學(xué)習(xí)是一種研究機器獲取新知識和新技能,并識別現(xiàn)有知識的方法[3];通常針對大規(guī)模數(shù)據(jù)集進行全方位綜合考量,挖掘深層次業(yè)務(wù)場景特征進而建立監(jiān)督、無監(jiān)督等類型的學(xué)習(xí)模型,在大量應(yīng)用中模型的準(zhǔn)確性、穩(wěn)定性也得到了充分驗證[4]。
為此,我們針對信用卡申請審批這一典型業(yè)務(wù)場景,應(yīng)用機器學(xué)習(xí)技術(shù)進行欺詐風(fēng)險管理并設(shè)計數(shù)據(jù)產(chǎn)品對異??蛻暨M行監(jiān)控預(yù)警。區(qū)別于將機器學(xué)習(xí)技術(shù)應(yīng)用到單一反欺詐規(guī)則制定的典型做法,我們嘗試從整體視角對欺詐風(fēng)險進行評估,實現(xiàn)精準(zhǔn)量化預(yù)測并以此作為應(yīng)對欺詐風(fēng)險的強有力手段。建模思路及方法具有一定的可遷移性,可以被廣泛應(yīng)用到銀行風(fēng)險防范、反欺詐等業(yè)務(wù)領(lǐng)域。
二、“會思考”的風(fēng)控模型
在應(yīng)用大數(shù)據(jù)支持業(yè)務(wù)發(fā)展轉(zhuǎn)型的過程中,我們提出構(gòu)建增強智能(Augumented Intelligence)系統(tǒng)[5]的創(chuàng)新思路。一個務(wù)實的增強智能系統(tǒng)包括客戶畫像、數(shù)據(jù)挖掘模型和決策引擎三個組成部分。數(shù)據(jù)挖掘模型是智能化的核心,客戶畫像為建模過程持續(xù)提供特征輸入,決策引擎將模型輸出成果轉(zhuǎn)換為實際業(yè)務(wù)行動。增強智能系統(tǒng)的一個重要目標(biāo)是提升傳統(tǒng)業(yè)務(wù)流程的自動化水平,過程中的大數(shù)據(jù)能力主要體現(xiàn)在三個方面,也就是下圖中的三個組成部分:更好的客戶認知、更智能化的算法、更快速的決策支持。
圖1:增強智能系統(tǒng)組成模塊
數(shù)據(jù)挖掘模型發(fā)揮動力引擎作用,吸收學(xué)術(shù)界和產(chǎn)業(yè)界先進機器學(xué)習(xí)知識成果并應(yīng)用于銀行實踐??蛻舢嬒裰攸c體現(xiàn)大數(shù)據(jù)背景下的客戶多維度刻畫,在靜態(tài)信息和交易行為信息之外可以補充社交網(wǎng)絡(luò)維度特征信息。伴隨大數(shù)據(jù)的持續(xù)采集、生產(chǎn)和交換,客戶畫像能夠進一步補充情緒屬性、價值觀屬性乃至道德屬性等信息,為數(shù)據(jù)挖掘建模提供源源不斷的能源輸入。決策引擎能夠面對業(yè)務(wù)場景進行快速響應(yīng),通過可視化等手段提供自助式業(yè)務(wù)分析能力,促進數(shù)據(jù)價值轉(zhuǎn)化為業(yè)務(wù)行動。
踐行上述思路,我們結(jié)合傳統(tǒng)風(fēng)險管控和社交網(wǎng)絡(luò)分析技術(shù),加工基礎(chǔ)維度信息和社交維度信息特征指標(biāo)組成反欺詐客戶畫像,并應(yīng)用隨機森林等分布式機器學(xué)習(xí)算法建立欺詐風(fēng)險預(yù)測模型。不同于傳統(tǒng)風(fēng)控模型以年為單位的更新優(yōu)化周期,智能化預(yù)測模型每天都能夠進行“思考”,通過更新網(wǎng)絡(luò)關(guān)系并重新訓(xùn)練模型確定最新的欺詐預(yù)測思維模式。模型在研發(fā)和使用的過程中靈活運用機器學(xué)習(xí)和社交網(wǎng)絡(luò)分析技術(shù),催生新型數(shù)據(jù)產(chǎn)品的開發(fā)與應(yīng)用從而帶動傳統(tǒng)業(yè)務(wù)流程的優(yōu)化。
三、模型構(gòu)建與結(jié)果分析
以銀行信用卡申請反欺詐為應(yīng)用場景,詳細描述社交網(wǎng)絡(luò)構(gòu)建、特征處理、算法實現(xiàn)、運行結(jié)果分析等階段過程。
1、結(jié)合社交視角構(gòu)造客戶特征信息
社交網(wǎng)絡(luò)分析是融合多學(xué)科理論和方法,為理解各種社交關(guān)系的形成、行為特點分析以及信息傳播的規(guī)律提供的一種可計算的分析方法[6]。社交網(wǎng)絡(luò)分析方法旨在建立一個網(wǎng)絡(luò)與真實世界的實體與關(guān)系映射,在銀行應(yīng)用中的典型實體包括客戶、賬戶、員工等。社交網(wǎng)絡(luò)分析通常關(guān)注靜態(tài)和動態(tài)兩個層面的網(wǎng)絡(luò)特征,靜態(tài)特征包括提取網(wǎng)絡(luò)指標(biāo)、對網(wǎng)絡(luò)特征刻畫、識別網(wǎng)絡(luò)群組等;動態(tài)特征主要包括描述網(wǎng)絡(luò)如何隨時間推移進行擴散、如何影響其他節(jié)點等。
分析信用卡進件審批數(shù)據(jù),確定數(shù)據(jù)中包含四種角色,分別是申請人、申請人親屬、聯(lián)系人和推廣人。在建模實施過程中將申請人角色作為社交網(wǎng)絡(luò)的關(guān)鍵節(jié)點,把申請人、申請人親屬、聯(lián)系人及推廣人這四種角色的移動電話、家庭電話、辦公電話的相同作為關(guān)系類型。建模過程中構(gòu)建的社交網(wǎng)絡(luò)包括780萬節(jié)點,2.33億條關(guān)系。
在構(gòu)建完成社交網(wǎng)絡(luò)后,設(shè)計并計算一二階度、一二階欺詐數(shù)、一二階欺詐占比、最短路徑等網(wǎng)絡(luò)指標(biāo)。從網(wǎng)絡(luò)視角衡量欺詐風(fēng)險的傳播,度反映節(jié)點關(guān)聯(lián)好友數(shù)量,最短路徑反映網(wǎng)絡(luò)中節(jié)點間親密程度。此外,建模中的客戶基礎(chǔ)信息包括申請人年齡、手機號、單位電話、電子郵箱、學(xué)歷、年收入、職位等,針對這些信息需要進行結(jié)構(gòu)化分解、離散化、頻度計算等數(shù)據(jù)預(yù)處理操作,共同構(gòu)建特征以用于后續(xù)模型的訓(xùn)練和驗證。
圖2:反欺詐模型特征構(gòu)造過程
2、建模方案設(shè)計
對進行特征工程化處理的數(shù)據(jù)進行拆分,設(shè)置三組建模數(shù)據(jù)集,分別是基礎(chǔ)信息的數(shù)據(jù)集(base)、社交信息的數(shù)據(jù)集(social),以及組合在一起的數(shù)據(jù)集(combine)。建模過程中采用3折交叉驗證的方式完成欺詐風(fēng)險預(yù)測模型建立和訓(xùn)練,并比較多組模型輸出的計算結(jié)果。
算法選擇方面,分別選擇邏輯回歸(LogisticsRegression, LR),隨機森林[7](Random Forests, RF)和深度學(xué)習(xí)[8](Deep Learning, DL)。邏輯回歸是銀行風(fēng)控領(lǐng)域的經(jīng)典算法,以此作為模型結(jié)果的標(biāo)桿參考。隨機森林是一種集成學(xué)習(xí)算法,利用多棵決策樹對樣本進行訓(xùn)練并預(yù)測;通常單棵樹性能表現(xiàn)較弱,但進行組合之后能夠提供較好的分類性能,同時算法穩(wěn)定性較好。深度學(xué)習(xí)(DL)模型是包含多隱層的多層感知器系統(tǒng),通過應(yīng)用綜合復(fù)雜結(jié)構(gòu)和多重非線性變換構(gòu)成的多個處理層及對數(shù)據(jù)進行高層抽象的一系列算法,建立具有數(shù)個隱層的多層感知網(wǎng)絡(luò)并實現(xiàn)各種模式的識別和認知。
模型評價方面,選用AUC、Precision、Recall、Accuracy、F1-measure等指標(biāo)。其中AUC[9](Area under Curve)是ROC曲線下的面積,介于0和1之間;AUC值表示將兩樣本正確分類的概率,AUC值越大說明模型分類性能越好。其他指標(biāo)均是從不同角度衡量模型性能,這里不再詳細說明。
3、建模結(jié)果分析
如下表所示,前三列數(shù)據(jù)為應(yīng)用隨機森林(RF)算法在不同數(shù)據(jù)集上進行的三組模型輸出結(jié)果。比較結(jié)果數(shù)據(jù)可以發(fā)現(xiàn),通過整合社交屬性信息模型各項評價指標(biāo)較基礎(chǔ)信息模型結(jié)果均有大幅度提升。不同于基礎(chǔ)信息,社交維度重在刻畫實體在網(wǎng)絡(luò)中的關(guān)系,其加工指標(biāo)在建模后呈現(xiàn)出與欺詐風(fēng)險相關(guān)的強特征關(guān)系。建模結(jié)果中AUC提升7個百分點,F(xiàn)1-measure提升2個百分點,充分驗證了建立多維度視角對于提升客戶欺詐風(fēng)險識別能力的有效性。更重要的是,伴隨大數(shù)據(jù)的采集和處理,可以從深度和廣度上對客戶欺詐風(fēng)險認知進一步補強,進而持續(xù)優(yōu)化模型的底層數(shù)據(jù)源。
后面三組數(shù)據(jù)是在整合數(shù)據(jù)集上應(yīng)用三種不同算法,整體表現(xiàn)邏輯回歸算法較弱,深度學(xué)習(xí)居中,隨機森林表現(xiàn)最優(yōu)。結(jié)果表明目前模型輸入特征與預(yù)測目標(biāo)關(guān)聯(lián)性較好,并且總體特征數(shù)量為數(shù)十個的量級,還不足以發(fā)揮深度學(xué)習(xí)海量特征無監(jiān)督優(yōu)化選擇的特性,相比之下隨機森林、GBDT[10]等集成學(xué)習(xí)算法表現(xiàn)更為突出。
表1:欺詐風(fēng)險預(yù)測模型結(jié)果比較
四、欺詐監(jiān)控數(shù)據(jù)產(chǎn)品
大數(shù)據(jù)在實際應(yīng)用中體現(xiàn)出強產(chǎn)品化的特點,通過構(gòu)建反欺詐數(shù)據(jù)產(chǎn)品能夠快速實現(xiàn)決策引擎的功能;同時原始數(shù)據(jù)從積累到建模均與該數(shù)據(jù)產(chǎn)品關(guān)聯(lián),用戶畫像建立和持續(xù)豐富也與反欺詐業(yè)務(wù)場景相結(jié)合。數(shù)據(jù)產(chǎn)品通過可視化技術(shù)實現(xiàn)自助式分析能力,在數(shù)據(jù)價值轉(zhuǎn)化為業(yè)務(wù)行動過程中發(fā)揮橋梁作用。
針對信用卡申請反欺詐場景,設(shè)計專項數(shù)據(jù)產(chǎn)品對接相關(guān)業(yè)務(wù)系統(tǒng)。數(shù)據(jù)產(chǎn)品提供全國進件審批疑似欺詐情況分布圖,實時獲得所關(guān)注區(qū)域的欺詐進件分布、欺詐發(fā)展趨勢、欺詐比重等動態(tài)。另外,提供分地區(qū)信息概要、進件詳情、明細檢索和社交網(wǎng)絡(luò)檢索等功能,能夠在系統(tǒng)頁面查詢基礎(chǔ)指標(biāo)統(tǒng)計圖(手機和電話特征分布)、不同模型輸出的欺詐風(fēng)險概率值、進件基本信息、進件網(wǎng)絡(luò)特征、社交指標(biāo)統(tǒng)計(一度、二度、最短路徑)等內(nèi)容。
圖3審批疑似欺詐情況分布圖
五、總結(jié)與展望
新形勢下銀行業(yè)務(wù)面臨的欺詐風(fēng)險演化出更多的表現(xiàn)形式和作案手法,亟需對傳統(tǒng)的欺詐風(fēng)險防控手段進行“智能化”升級改造。我們基于大數(shù)據(jù)挖掘方法,綜合應(yīng)用社交網(wǎng)絡(luò)分析和機器學(xué)習(xí)算法進行風(fēng)險量化預(yù)測;客戶識別角度綜合基礎(chǔ)維度和社交維度信息,技術(shù)角度應(yīng)用隨機森林、深度學(xué)習(xí)等算法大幅提升預(yù)測準(zhǔn)確性,共同構(gòu)成“會思考“的風(fēng)控模型。模型能夠進一步區(qū)分欺詐特征,提升信用卡申請欺詐偵測能力,該模型構(gòu)建在銀行風(fēng)險防范和反欺詐領(lǐng)域具有一定的推廣價值。
在下一步研究與實踐過程中,我們將結(jié)合更多銀行內(nèi)外部數(shù)據(jù)以完善社交網(wǎng)絡(luò)特征,對客戶進行更加全面的特征刻畫將有助于復(fù)雜機器學(xué)習(xí)算法發(fā)揮威力;同時,將在業(yè)務(wù)系統(tǒng)部署智能化反欺詐監(jiān)控模塊,通過數(shù)據(jù)產(chǎn)品提供欺詐進件分布、欺詐發(fā)展趨勢、欺詐比重等動態(tài)場景以輔助決策,利用數(shù)據(jù)價值驅(qū)動支持業(yè)務(wù)的發(fā)展與轉(zhuǎn)型。(來源:億歐網(wǎng);編選:中國電子商務(wù)研究中心)