Traquer la Fraude grâce aux méthodes Data Science

Sinistres fictifs, fausses déclarations, arrangements avec un professionnel… La fraude à l’assurance n’a rien d’anodin : elle représentait, en 2014, 2,5 milliards d’euros en assurance dommages soit 5 % des primes de ce secteur en France.

Une sensibilisation au sein des organismes assureurs de plus en plus accrue se fait sentir notamment par le développement d’une culture éthique et de dispositifs de contrôles internes.

Même si l’expertise humaine des gestionnaires de sinistres est privilégiée dans le cas de détection de la fraude, les outils d’analyse de données se développent de plus en plus et ont pour ambition de compléter les procédures classiques.

Depuis 2014, la Commission Nationale de l’Information et des Libertés (CNIL) propose une autorisation unique (n°AU 039) permettant aux assureurs de croiser leurs bases de données dans le but notamment de gérer « les alertes en cas d’anomalies, d’incohérences ou de signalements » et de constituer « des listes de personnes dûment identifiées comme auteurs d’actes pouvant être constitutifs d’une fraude ».

L’essor de la data science pourrait ainsi inverser le rapport de force entre fraudeurs et assureurs. Alors que les modèles statistiques classiques ont un faible pouvoir de détection d’anomalies, les méthodes de machine learning, quant à elles, qu’elles soient supervisées ou non supervisées, sont plus adaptées dans la recherche de signaux faibles comme la fraude.

Ainsi, une méthode supervisée peut repérer une typologie de fraudeurs à partir d’une base de données dans laquelle les cas avérés ont déjà été identifiés : celle-ci détecte les fraudeurs potentiels comme étant proches de la typologie obtenue lors de la phase d’apprentissage du modèle. Aujourd’hui, les fraudes avérées sont généralement issues des intuitions des gestionnaires de sinistres, reposant déjà sur des caractéristiques a priori des fraudeurs. Aussi, une méthode supervisée peut permettre de confirmer les assertions des gestionnaires et d’améliorer les processus de gestion des sinistres. Le danger cependant ici serait de cibler uniquement une catégorie d’individus et de passer à côté de fraudeurs ayant une typologie toute autre.

Les méthodes non supervisées, appropriées lorsque le nombre de cas de fraudes avérées est faible voire nul, permettent d’attribuer un score de suspicion de fraude pour chaque individu. Plus une observation diverge d’une certaine « normalité » définie par les méthodes, plus sa probabilité de frauder est élevée. Ces modèles sont particulièrement intéressants dans le cas de la détection de la fraude sans a priori sur les fraudeurs potentiels.

A mi-chemin entre les deux types de méthodes présentées précédemment, les modèles semi supervisés sont également utilisés avec succès.

Le système de détection de la fraude mis en place doit être en constante évolution et doit être enrichi par l’expérience acquise au fur et à mesure. L’implication permanente des gestionnaires aux côtés des data scientists dans l’amélioration continue des outils est primordiale dans la réussite de ces dispositifs permettant d’allier leurs expertises métiers respectives.

Nous préconisons aux Directions générales de rapidement tester leurs données afin de mesurer l’efficacité des nouvelles méthodes d’analyse de la fraude, en partant de modèles simples et pédagogiques (de type CART ou k plus proches voisins) et en associant les gestionnaires, les data scientists, les actuaires et les commerciaux.

 

Le cabinet GALEA & Associés intervient sur l’ensemble de ces sujets afin d’accompagner au mieux le monde de l’assurance et de permettre aux acteurs de se positionner et d’utiliser des techniques innovantes que sont la data science, l’automatisation, et la robotisation.

Florence Chiu

Actuaire IA du Cabinet Galea & Associés

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.