Category: Metodologie Analisi Rating

Big data e Machine Learning nell’analisi del rischio di credito

Oggi vorrei tornare su un argomento molto di moda e che ho già affrontato alcuni mesi fa: come utilizzare i big data e modelli machine learning nell’analisi del rischio di credito.

Come magari vi ricorderete, avevo affermato che in modeFinance  utilizziamo massivamente grandi quantità di dati (70 milioni di aziende in 200 Stati, più di 200 milioni di bilanci, anche grazie alla partnership con la società Bureau van Dijk), ma avevo puntualizzato come le metodologie machine learning le utilizziamo solo in via indiretta, non integrate nella singola analisi.

In questo posto voglio approfondire questo discorso, per mostrarvi dove si trovano le difficoltà nell’utilizzare queste determinate metodologie.

I punti principali sono due:

  1. mancanza di dati sulle aziende fallite;
  2. “buchi” presenti nei bilanci.

Iniziamo con il primo punto: la mancanza di dati sulle aziende fallite.

Come vi ricorderete, i modelli machine learning “imparano” dal database che gli fate vedere; il classico database nel caso di analisi del rischio di credito non è altro che l’insieme di tutte le aziende (sane e fallite) e dei loro rispettivi indicatori di bilancio (qua si apre un discorso: quali indicatori? Ma lo approfondiremo in un altro post); il database lo possiamo rappresentare così:
azienda 1 - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 0
azienda 2 - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 0
azienda m - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 1

Cosa rappresenta lo 0 o 1 finale? Esso rappresenta la label identificativa se l’azienda è attiva (0) o fallita (1). E questo è un elemento fondamentale: praticamente i modelli machine learning creano una funzione numerica che divide le aziende sane dalle fallite.

E qua nasce il problema fondamentale: il modello per essere creato deve avere un database completo, quindi con un numero sufficiente anche di aziende fallite. Ma riusciamo a recuperare queste informazioni? La risposta è purtroppo NO, non in tutti gli Stati.

Per farvi capire vi allego la seguente figura che mostra il numero di aziende con dati digitalizzati (e quindi utilizzabili in un modello numerico) fallite e quindi utilizzabili per un modello machine learning:

Number of bankrupt companies

Come vedete sono pochissimi gli Stati nei quali abbiamo un buon numero di informazioni e quindi dove i modelli machine learning possono essere utilizzati. In tutti gli altri Stati l’applicazione di questa modellistica è impossibile! E nel mondo ci sono più di 200 Stati…..direi problema insormontabile!

Passiamo ora al secondo punto: “buchi” presenti nei bilanci.

Se ritorniamo al db di prima:
azienda 1 - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 0
azienda 2 - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 0
azienda m - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 1

Come vedete per ogni azienda devo conoscere l’insieme degli indicatori di bilancio (per esempio leverage, ROE, Current Ratio ecc); ma abbiamo sempre questi valori? La risposta è purtroppo nuovamente NO. In moltissimi Stati le aziende non hanno l’obbligo di deposito dell’intero bilancio e quindi per moltissime aziende ci troveremmo con dei “buchi”. E notate, non occorre andare molto lontano per trovare questa situazione, già in Europa abbiamo due casi: Inghilterra e Olanda! Di seguito due esempi:

Incomplete Income Statement Sample

Incomplete Income Statement Sample

Complete Income Statement Sample

Complete Income Statement Sample

Come si vede ci si potrebbe trovare all’interno dello stesso Stato con due aziende: una di cui conosco tutti gli indicatori e una di cui ne conosco solo alcuni. In questi casi il db “bucato” diventerebbe:
azienda 1 - vuoto - ratio_2 - vuoto - …  - ratio_n 0
azienda 2 - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 0
azienda m - ratio_1 - ratio_2 - ratio_3 - …  - ratio_n 1

E in questo caso nulla si potrebbe fare! (certo ci sono metodi che vanno a “coprire” i buchi come per esempio Multiple Imputation, e io non userei metodi approssimati per dare un rating!).

In questo breve post vi ho cercato di mostrare i motivi per cui noi di modeFinance non riteniamo conveniente utilizzare i modelli di machine learning per valutare il rischio di credito: troppe assunzioni pericolose, e troppa incompletezza di dati. Certo, per un modello basato solo su aziende italiane, francesi, spagnole, si potrebbe, ma appena ci si muove oltre questi Stati le problematiche sarebbero troppe e a quel punto le assunzioni da fare, troppo stringenti.

Ciò non toglie che l’utilizzo dei bigdata finanziari è fondamentali: in un posto che stò già scrivendo vi dirò come in modeFInance trattiamo l’enorme mole di dati che abbiamo e a che risultati questo ci porta.

Condividi e consiglia questa pagina: