影音先锋男人午夜资源站,一色屋免费精品视

機器學(xué)習(xí)如何應(yīng)用于反欺詐？

2018-12-10 09:37 億歐

導(dǎo)讀：本文主要介紹機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用，討論建立反欺詐機器學(xué)習(xí)模型的流程以及提升模型效果的思路。

本文主要介紹機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用，討論建立反欺詐機器學(xué)習(xí)模型的流程以及提升模型效果的思路。

金融反欺詐,金融科技,發(fā)欺詐,人工智能,風(fēng)控

圖片來自“123rf.com.cn”

欺詐是一項超過十億美元的業(yè)務(wù)，而且每年都在增長。普華永道2018年全球經(jīng)濟犯罪調(diào)查發(fā)現(xiàn)，在被調(diào)查的7,200家公司中，有約一半（49％）經(jīng)歷過某種形式的欺詐。而相關(guān)第三方數(shù)據(jù)調(diào)查顯示，消費金融及互聯(lián)網(wǎng)金融公司的壞賬中接近50%來自于欺詐。其中，身份冒用類占比例最高，其次是團伙欺詐以及惡意違約等。另外，多頭借貸行為也非常猖獗。反欺詐簡單來說，就是為了找出“羊群中的狼”，其必要性和緊迫性不言而喻。

用于欺詐檢測的技術(shù)可分為兩大類：統(tǒng)計分析和人工智能。

統(tǒng)計分析技術(shù)的例子包括：

數(shù)據(jù)預(yù)處理 - 用于檢測、驗證、糾正和填充缺失或不正確數(shù)據(jù)；

計算各種統(tǒng)計參數(shù) - 例如平均值、分位數(shù)、性能指標(biāo)、概率分布等。例如，用戶通話記錄的平均呼叫時長，每月平均呼叫次數(shù)和賬單支付的平均延遲天數(shù)；

時間序列分析 - 預(yù)測變化趨勢與風(fēng)險；

聚類分析 - 查找數(shù)據(jù)之間的模式和關(guān)聯(lián)性；

匹配算法 - 檢測交易或用戶行為中的異常。

用于欺詐管理的主要人工智能技術(shù)包括：

數(shù)據(jù)挖掘 - 對數(shù)據(jù)進行分類、聚類和分段，并自動查找數(shù)據(jù)中潛在的模式和規(guī)則，包括與欺詐相關(guān)的模式；

專家系統(tǒng) - 規(guī)則的形式來檢測欺詐的專業(yè)知識；

機器學(xué)習(xí) - 自動識別欺詐特征；

神經(jīng)網(wǎng)絡(luò) - 從樣本中學(xué)習(xí)可疑模式，并在未來檢測它們。

其他人工智能技術(shù)，如鏈接分析、貝葉斯網(wǎng)絡(luò)、決策理論和知識圖譜等，也可用于欺詐檢測。

欺詐的新手段和方式層出不窮，僅依靠單一或簡單的方法遠遠不夠。上述方法和技術(shù)已經(jīng)在業(yè)界獲得一定程度的應(yīng)用，業(yè)界對于相關(guān)技術(shù)的認可度和重視度也在與日俱增。

事實證明，充分利用統(tǒng)計分析、機器學(xué)習(xí)技術(shù)乃至復(fù)雜的人工智能模型等，能夠極大地提升公司的反欺詐水平，降低欺詐損失。

在下文中，筆者將主要介紹機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用，討論建立反欺詐機器學(xué)習(xí)模型的流程以及分享一些提升模型效果的思路。

01 機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用

實際業(yè)務(wù)中，常見的反欺詐手段主要包括：黑名單法、反欺詐規(guī)則系統(tǒng)以及機器學(xué)習(xí)技術(shù)。前兩種方法實施簡單，且可解釋性較強，但往往存在滯后性嚴重和準(zhǔn)確度低的問題。而建立反欺詐模型，特別是基于機器學(xué)習(xí)的反欺詐模型，可以通過多樣的算法來準(zhǔn)確地識別欺詐屬性，降低欺詐風(fēng)險。

如上圖所示，我們將機器學(xué)習(xí)和人工智能解決方案分為兩類：“有監(jiān)督”和“無監(jiān)督”學(xué)習(xí)。

有監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)，或者說監(jiān)督式學(xué)習(xí)，是反欺詐檢測中最為廣泛使用的機器學(xué)習(xí)模式。其模型技術(shù)包括但不限于決策樹算法、隨機森林、最近鄰算法、支持向量機和樸素貝葉斯分類等。

監(jiān)督式學(xué)習(xí)的機器學(xué)習(xí)模型通常是從有標(biāo)簽的數(shù)據(jù)中自動創(chuàng)建出模型，來檢測欺詐行為。簡單地說，就是通過學(xué)習(xí)經(jīng)過分類的資料，建立一種模式，并依據(jù)這一模式來推測和判斷新的實例。

具體而言，監(jiān)督神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)以及神經(jīng)網(wǎng)絡(luò)和規(guī)則的組合已經(jīng)被廣泛應(yīng)用于電話網(wǎng)絡(luò)和財務(wù)報表欺詐；貝葉斯神經(jīng)網(wǎng)絡(luò)用于信用卡欺詐檢測、電信欺詐、汽車索賠欺詐檢測和醫(yī)療保險欺詐等。

這種類型的模型僅能夠檢測與先前已經(jīng)發(fā)生的欺詐案例相類似的欺詐。想要檢測新型欺詐，還需要使用無監(jiān)督的機器學(xué)習(xí)算法。

無監(jiān)督學(xué)習(xí)

相反，無監(jiān)督方法不需要預(yù)選和標(biāo)記欺詐類型。無監(jiān)督學(xué)習(xí)的反欺詐模型使用各維度的數(shù)據(jù)和標(biāo)簽進行聚類，從而找出與大多數(shù)用戶行為相差較大的，并予以攔截。

下圖展示了主要反欺詐手段出現(xiàn)的先后以及各自的檢測效果和優(yōu)缺點。

黑名單和規(guī)則系統(tǒng)不能迅速和有效地應(yīng)對變化的欺詐手段，顯得有些“后知后覺”。有監(jiān)督的機器學(xué)習(xí)需要人工標(biāo)記欺詐標(biāo)簽來訓(xùn)練模型，無監(jiān)督學(xué)習(xí)則可以自動產(chǎn)生標(biāo)簽，挖掘和聚類未知的欺詐行為。

迄今為止，尚未出現(xiàn)較為成熟和經(jīng)過實踐驗證的無監(jiān)督學(xué)習(xí)解決方案，一方面，無監(jiān)督學(xué)習(xí)對于數(shù)據(jù)的廣度、深度都有著極其高的要求，另一方面，我們的對于該方法的探索還有待加強。

無論是使用監(jiān)督方法還是非監(jiān)督方法，輸出僅為我們提供欺詐的可能性，沒有獨立的統(tǒng)計分析可以確保特定對象是百分百欺詐性的，但是模型識別的準(zhǔn)確度非常高，尤其是結(jié)合黑名單和規(guī)則系統(tǒng)后，綜合準(zhǔn)確率會大大提升。

02 反欺詐模型流程

反欺詐模型的流程主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、風(fēng)險特征挖掘、模型構(gòu)建、模型監(jiān)控五個環(huán)節(jié)，如下圖所示：

數(shù)據(jù)采集

數(shù)據(jù)的質(zhì)量和維度是成功模型的基礎(chǔ)。在數(shù)據(jù)采集階段，既需要整合內(nèi)部數(shù)據(jù)，如用戶申請信息、交易數(shù)據(jù)、網(wǎng)絡(luò)及設(shè)備終端數(shù)據(jù)等，又需要外部數(shù)據(jù)的補充。許多用于反欺詐的外部數(shù)據(jù)來自法院、公安部、工商局、社保局等，包含了刑事犯罪信息、商業(yè)犯罪信息、違法賬戶等信息。同業(yè)共享的各類欺詐信息也是重要的外部數(shù)據(jù)。

由于數(shù)據(jù)來源廣泛，直接導(dǎo)致數(shù)據(jù)種類和規(guī)模急劇增加。公司在數(shù)據(jù)處理技術(shù)方面除了采用成熟的商用數(shù)據(jù)庫外，還應(yīng)廣泛應(yīng)用大數(shù)據(jù)分析技術(shù)。

數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進行結(jié)構(gòu)化的處理，比如數(shù)據(jù)類型轉(zhuǎn)換、缺失值和極端值的處理等，或是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。

對于客戶數(shù)據(jù)，可跨越不同渠道歸集客戶相關(guān)屬性，如年齡、賬齡、教育程度、地域等要素，建立客戶畫像檔案，描述客戶特征。對于商戶數(shù)據(jù)，應(yīng)根據(jù)商戶信用評級信息、產(chǎn)品銷售量、商戶類別等要素，建立商戶檔案，劃分商戶風(fēng)險等級。

風(fēng)險特征挖掘

在風(fēng)險特征挖掘階段，常用的分析方法有假設(shè)分析、關(guān)聯(lián)分析、模式歸納分析等。比如，假設(shè)分析的目的是對問題提出各種可能的假設(shè)，并評估假設(shè)的分析過程；關(guān)聯(lián)分析旨在從大量數(shù)據(jù)中發(fā)現(xiàn)事物之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。

對客戶的各類信息進入深入分析，以時間、頻率、距離、比例等統(tǒng)計口徑，建立風(fēng)險特征庫，比如近3個月交易金額，距離一公里以內(nèi)的申請總?cè)藬?shù)等。運用大數(shù)據(jù)技術(shù)，計算出每個風(fēng)險特征對相應(yīng)變量的貢獻能力，以及各風(fēng)險特征之間的相關(guān)性，選取重要性高和貢獻力強，以及相關(guān)性弱的變量，作為后續(xù)建模的備選變量。

模型構(gòu)建

反欺詐模型可使用傳統(tǒng)的邏輯回歸和流行的機器學(xué)習(xí)模型，比如Boosting算法類別的Adaboost、GBDT、XGBoost等。其中熱門的Xgboost模型，其主要優(yōu)化點在于對損失函數(shù)做了二階的泰勒展開，并在目標(biāo)函數(shù)之外加入了正則項對整體求最優(yōu)解，用以權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度，避免過擬合。

一般來說界定模型的好壞有兩個方面，一個是區(qū)分能力，另外一個是穩(wěn)定性，常用K-S值和PSI等指標(biāo)來衡量。

模型需要不斷迭代優(yōu)化，才能貼近真實情況。在模型迭代階段，運用交叉驗證等方法，不斷優(yōu)化模型，使模型各項指標(biāo)（包括準(zhǔn)確率、對數(shù)損失函數(shù)、精確率-召回率、混淆矩陣等），達到理想的預(yù)測效果。

模型監(jiān)控

經(jīng)過模型評估、選擇及審批后，需要技術(shù)部門配合進行部署、生產(chǎn)測試，最終投入使用。在模型上線后，定期對模型的穩(wěn)定性、區(qū)分度、精確性等指標(biāo)進行監(jiān)控。根據(jù)宏觀經(jīng)濟環(huán)境或內(nèi)部業(yè)務(wù)的變化，及時進行模型檢測，及早發(fā)現(xiàn)隱患。根據(jù)監(jiān)控結(jié)果，在模型性能發(fā)生明顯退化時，根據(jù)退化的嚴重程度對模型進行迭代調(diào)整，或是重新開發(fā)。

03 如何提升反欺詐模型性能

如果發(fā)現(xiàn)反欺詐模型的效果不太理想，可以嘗試從以下四個方面提升：

一是數(shù)據(jù)方面，如果最終模型效果不太好，首先考慮數(shù)據(jù)采集階段的變量維度是否足夠，同時也需要嘗試構(gòu)建出更多的特征來。數(shù)據(jù)預(yù)處理是否到位，是否考慮到各種情況，有沒有犯低級錯誤，導(dǎo)致后續(xù)建模效果不好等。

二是算法選擇，使用一個簡單的算法，比如線性模型，作為基準(zhǔn)模型，后續(xù)用復(fù)雜的算法來擬合數(shù)據(jù)，對比各種模型在所擁有數(shù)據(jù)集上的表現(xiàn)與提升，通常復(fù)雜的算法會比線性的算法有著更好的效果，但也意味著更多的調(diào)參時間。

三是算法調(diào)參，一般說來，越復(fù)雜的算法所需要的參數(shù)越多。比如神經(jīng)網(wǎng)絡(luò)的參數(shù)就非常多，對算法本身需要有一定的了解，再花時間去一步步調(diào)參。

四是模型融合，當(dāng)我們使用不同的或相似模型不同參數(shù)的模型得到結(jié)果后，可將各個模型融合在一起，各模型作為新模型的輸入重新訓(xùn)練，這樣綜合起來的模型效果可能會出乎意料。

至此，我們還必須認清一個現(xiàn)實：單純依靠機器學(xué)習(xí)模型來檢測欺詐是片面的。比較折中且可行的方法是把人為欺詐規(guī)則和機器學(xué)習(xí)模型合二為一，一起來使用。反欺詐模型難度很高，需要和反欺詐領(lǐng)域?qū)＜乙黄饏f(xié)作才能有最好的結(jié)果。

04 結(jié)語：技術(shù)與風(fēng)控助力反欺詐

互聯(lián)網(wǎng)金融科技的迅速發(fā)展成為整個新金融不可逆轉(zhuǎn)的大方向，新技術(shù)的逐步應(yīng)用落地將逐步擠壓“黑灰產(chǎn)業(yè)”的生存空間。隨著市場的相關(guān)政策法規(guī)的完善，以及大數(shù)據(jù)、人工智能等技術(shù)的應(yīng)用，互金行業(yè)必將走上發(fā)展的快車道。

有陽光的地方總會有陰影，陰影的存在方能彰顯陽光的難能可貴。技術(shù)、監(jiān)管和風(fēng)控三位一體助力金融反欺詐，金融行業(yè)的太陽每天都會照常升起。

機器學(xué)習(xí)如何應(yīng)用于反欺詐？

01 機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用

02 反欺詐模型流程

03 如何提升反欺詐模型性能

04 結(jié)語：技術(shù)與風(fēng)控助力反欺詐

相關(guān)閱讀