Quantifier l’ilmpact d’une variable dans un modèle de régression

Quantifier l’ilmpact d’une variable dans un modèle de régression

Quantifier l’ilmpact d’une variable dans un modèle de régression 150 150 Prim'Act

Lorsqu’il s’agit de mesurer l’impact d’une variable explicative binaire sur une réponse quantitative, le modèle GLM avec une fonction de lien logarithme fournit un outil simple permettant de répondre au besoin.

La validité du résultat obtenu suppose toutefois que l’hypothèse de proportionnalité des effets soit vérifiée, l’espérance conditionnelle de la réponse s’écrivant comme un produit de coefficients attachés chacun aux modalités des variables, ce qui peut s’avérer assez contraignant. Lorsque cette hypothèse n’est pas vérifiée et que l’effet relatif de la variable d’intérêt varie d’un segment à l’autre, il est nécessaire de construire d’autres mesures et la réalisation d’un GLM par segment conduit à augmenter la volatilité des estimateurs, ce qui en fait une solution peu efficace lorsque le nombre de segments augmente.

Dans cet article

Planchet F., Wabo A. [2019] « Mesure d’impact d’une variable binaire sur une réponse quantitative dans un cadre non paramétrique », ISFA, document de travail.

une approche non paramétrique, basée sur le gradient boosting (Ridegway [1999]) et les valeurs SHAP (cf. Shapley [1953] et Lundberg et Lee |2017]), est proposée pour construire cette mesure d’influence.

Les résultats obtenus montrent que:

  • le GLM est un outil robuste pour fournir une mesure de l’influence de la variable si celle-ci est globale ;
  • dès lors que l’on souhaite décomposer plus finement la mesure par segment, l’approche non paramétrique fournit des mesures cohérentes, alors que le GLM ne peut plus être utilisé.

Le recours  aux valeurs SHAP, sensiblement plus complexe à calculer sur le coefficient d’un modèle GLM, ne présente donc d’intérêt que dans le cas où l’hypothèse de proportionnalité n’est pas vérifiée et où des mesures différenciées de l’influence des variables explicatives sur la réponse sont doit être fournit par segment.

Références

Lundberg S.M., Lee S.I. [2017] A unified approach to interpreting model predictions, Advances in Neural Information Processing Systems.

Ridgeway G. [1999] The State of Boosting, Computing Science and Statistics, 31, 172–181.

Shapley L.S. [1953] A value for n-person games. Contributions to the Theory of Games. 2.28: 307-317.


Source: Primact

Subscribe for free resources and news updates.

    Your Name *

    Your Email *

    Nous sommes à votre disposition...

    Contactez-nous

    Suivez-nous

    Société d’actuaires polyvalents et réactifs à votre service. Nous intervenons principalement auprès des Organismes Assureurs et de réassurance.

    42 avenue de la Grande Armée, 75017 Paris

    ® Prim’Act 2022 | Une création TamentoMentions légales – Politique de confidentialité