La Data Science en Assurance

Les capacités technologiques augmentant à une vitesse vertigineuse, les bases de données se multiplient et s’agrandissent. Face à cette nouvelle masse importante de données, les modèles actuariels classiques deviennent perfectibles : la discipline de la « Data Science » est née.

Celle-ci peut être définie comme une combinaison de techniques mathématiques, statistiques et informatiques et emploie des méthodes d’un nouveau genre. A l’origine évoquée dans des domaines tels que l’astronomie ou la génétique, ces notions peuvent désormais s’élargir à différentes sortes d’applications (politique, sport, médecine, etc.). Dans le domaine de l’assurance et de l’actuariat, ces différentes notions ont fait leur apparition plus récemment, au début des années 2010. Bien qu’étant encore en phase de développement, leurs possibilités d’utilisation sont déjà nombreuses : tarification, suivi des risques, détection de la fraude, étude des comportements (résiliations, versements, arbitrages notamment), marketing prédictif, etc.

Les modèles dits « Data Science » possèdent quelques particularités qui peuvent légitimer leur utilisation dans le monde des assurances en lieu et place des modèles « traditionnels ». Ces modèles traditionnels, le plus souvent des modèles linéaires généralisés (ou GLM), disposent d’avantages certains, le premier d’entre eux étant le fait qu’ils sont connus et maîtrisés par le plus grand nombre. Cependant, certaines étapes de leur implémentation peuvent s’avérer chronophages. Le traitement des données qui implique l’étude précise de la typologie des variables ou encore leurs regroupements en classes dans le cadre de GLM, sont grandement facilités avec les techniques de data science. Les modèles basés sur la théorie des arbres de décisions[1], par exemple, très populaires grâce à leur côté « graphique », acceptent aussi bien des valeurs quantitatives que qualitatives et les classes de variables sont créées par le modèle lui-même. Néanmoins, certains modèles issus des Data Science, du fait d’une théorie initiale parfois complexe, peuvent être qualifiés de « boîte noire ». De fait, sans supprimer l’ensemble des modèles et outils mis en place aujourd’hui, les modèles Data Science peuvent être un moyen efficace de challenger l’existant ou d’apporter quelques améliorations.

De plus, l’environnement des Data Sciences peut offrir de nouvelles opportunités aux assureurs. En effet, les partenariats entre assureurs et start-up venant de domaines variés se multiplient ces dernières années.

Dans le cadre de l’assurance santé, les modèles Data Science, par une étude plus poussée des données à disposition et l’intégration de données externes, permettent d’affiner l’analyse de la consommation médicale et d’identifier de potentielles dérives sur des groupes d’assurés présentant des caractéristiques communes. Selon une statistique communément admise dans le milieu de l’assurance santé, 20 % des assurés représentent environ 80 % des dépenses engagées. Connaître les caractéristiques de ces assurés particuliers est donc nécessaire : non seulement pour anticiper les dérives et piloter la sinistralité mais surtout pour développer des actions de prévention adaptées.

Galea peut vous accompagner sur ces différents sujets pour optimiser l’utilisation de vos données, pour auditer vos algorithmes ou encore pour vous aider à mettre en places la structure nécessaire au sein de votre entreprise.


[1] CART, Random Forest, Gradient Boosting, …

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.