Skip to content

wu0up/Loan_prediction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 
 
 

Repository files navigation

信貸(Loan)交易預測

https://tbrain.trendmicro.com.tw/Competitions/Details/5

目標:

透過玉山提供官網上120天的瀏覽行為、客戶基本資料及交易(信貸申請, 信用卡申請, 外匯交易, 信託類產品交易),預測顧客在之後的30天與玉山的信貸往來狀況。

本次使用的資料集:

資料名稱 資料內容 資料筆數
TBN_CUST_BEHAVIOR.csv 顧客網頁瀏覽行為 2,209,864筆
TBN_CIF.csv 顧客基本資料 187,679筆
TBN_CC_APPLY.csv 顧客信用卡核卡資料 54,393筆
TBN_FX_TXN.csv 顧客外匯交易資料 507,185筆
TBN_LN_APPLY.csv 顧客信貸申請資料 6,741筆
TBN_WM_TXN.csv 顧客信託類產品交易資料 195,000筆

技巧:

  1. 特徵產生(Feature Generation)
  2. 資料探勘(EDA)
  3. 使用模型進行預測
  4. 結論

1. 特徵產生(Feature Generation):

本次的資料集除了信貸資料外,共有5個表格,分別描述其他產品及使用者行為;為了探討其他特徵和信貸的關係,以使用者(Cust_NO)作為Primary Key,針對有發生信用卡/外匯/信託類產品/使用者行為的動作設為1,並合併成1個Train_Set.

2. 資料探勘(EDA):

a. 信貸申請次數 VS.天數
透過趨勢圖, 可看出前兩個月的貸款申請人數在月初和月底較高,但第三個月的狀況不明顯。

image

b. 信貸申請和可能的url關聯
為了探討使用者行為和信貸申請的關係,觀察編碼後的URL,篩選出包含和信貸相關關鍵字-qodr的URL,再繪製每一天的URL拜訪數量,並和信貸申請人數比較; 雖然有些趨勢類似,但兩者的相關係數為-0.3,並非正相關。

image

c. 缺失值
合併整理後的Train_Set,資料筆數為157971筆;然而,下方圖表為缺失值的數目,可以發現信貸的數據缺失值很多,這是這次信貸預測最難進行的一個原因。

image

d. 各特徵之間的相關性

image

3. 使用模型進行預測:

參考其它文獻及Kaggle競賽,因此使用XGBoost作為訓練模型;並利用Train_set的前90天資料作為X, 後30天資料作為y; 其中30%的資料集做為Validation set。

4.結論:

本次預測Validation set的Accuracy為0.99。

About

2019_玉山金融商品交易預測-信貸

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages