Svindelmodellering ved hjælp af Neurale Netværk
Machine Learning i skadeforsikring
Juli 2022
Håndtering af svindel er et vigtigt aspekt af at drive et moderne forsikringsselskab. Hvert år udbetales adskillige milliarder kroner i erstatninger som følge af forsikringssvindel, hvilket dels medfører tab for forsikringsselskaberne og dels fører til forhøjede præmieniveauer. Lad os derfor gøre vores bedste for at gøre livet svært for svindlere.
Formålet med en svindelmodel
Identifikation af svindelsager foregår typisk nogenlunde sådan her: En mistænkelig skade modtages og sendes til triage. Hvis der er tilstrækkelige oplysninger til at prioritere sagen, sendes den videre til efterforskning.
Formålet med en svindelmodel er at supplere den eksisterende proces ved at forbedre identifikationen af mistænkelige skader. Hvis vi er i stand til at gøre dette godt, vil vi fange flere svigagtige påstande ved hjælp af færre ressourcer.
Opbygning af en svindelmodel
En effektiv svindelmodel forudsætter flere elementer, som hver især er afgørende for succes. De vigtigste elementer er
Det er yderst vigtigt at definere modellens mål så præcist som muligt. Ønsker vi for eksempel at fange så mange svindelsager som muligt? Eller er der ressourcemæssige begrænsninger, der skal tages hensyn til?
Data er grundlaget for enhver Machine Learning model. Det er derfor afgørende at forstå data til fulde og processere det hensigtsmæssigt.
Oftest bygger vi flere modeller for at sammenligne dem og vurdere, hvilke der præsterer bedst og nemmest kan integreres i virksomheden. Det er i den forbindelse afgørende at vælge passende metoder og parametre at måle på.
Når data er på plads, kan vi bygge den egentlige svindelmodel. Dette er et udførligt trin, der består af behandling af data til brug i en model, funktionsteknik samt valg og tuning af en model.
Det er afgørende at udarbejde en implementeringsstrategi for, hvordan vi bedst integrerer modellen i virksomheden. Formår vi ikke det, vil alt det gode arbejde vi har gjort i de foregående trin, være mere eller mindre spildt.
Projektet i praksisk
Projektet var et proof-of-concept-projekt i samarbejde med et stort dansk forsikringsselskab. Formålet var at vurdere, om det ville give mening at investere i at opbygge en sofistikeret Machine Learning baseret svindelmodel frem for en mere simpel og lavpraktisk tilgang.
Vi formulerede projektet som et superviseret binært klassifikationsproblem, som involverede følgende modelklasser:
Denne klasse af modeller er arbejdshesten, hvad angår neurale netværk og er derfor velforstået og velimplementeret i statistisk software.
En Bayesiansk tilgang er attraktiv, fordi den prædiktive fordeling indeholder værdifuld information sammenlignet med punktprædiktioner. Det er imidlertid en klasse af modeller, som er vanskelige at håndtere og kræver betydelige mængder computerkraft.
Data indeholdte tilstrækkelig information til, at det var muligt for os at tage højde for en eventuel relation imellem skadelidte, dvs. måder hvorpå ansøgerne muligvis kender hinanden. Mulige relationer mellem skadelidte er et rigtigt interessant aspekt at kunne tage højde for, specielt i forhold til identifikation af organiseret svindel. Data over relationer er indkodet i en graf, som vi derefter kan bruge som input til en Machine Learning model; i dette tilfælde et Graph Convolutional Neural Network.
Resultaterne af projektet kan sammenfattes som følger:
- Feed Forward Neural Networks viste sig at fungere betydeligt bedre – og med en stor margin – sammenlignet med mere enkle løsninger som logistisk regression.
- Bayesiske neurale netværk var for beregningsmæssigt dyre til at være praktisk gennemførlige.
- Inddragelse af data over relationer gennem Graph Convolutional Neural Networks forbedrede svindelmodellens præstationsevne. Brug af relationelle data i forbindelse med almindelige metoder er en spændende måde at forbedre ydeevnen ud over, hvad der ellers ville være muligt.