Avec l’intérêt croissant pour l’apprentissage statistique, les actuaires se trouvent conduit à utiliser de plus en plus souvent des techniques non paramétriques. Celles-ci, très performantes lorsque le volume des données est suffisant, peuvent induire des biais significatifs et s’avérer inadaptées lorsque la taille de l’échantillon se réduit. Pour l’illustrer, on considère l’exemple simple de la construction d’une loi de maintien en incapacité de travail (le code utilisé pour construite les illustrations est disponible ici).
On dispose d’un gros fichier de sinistres, avec environ 500 000 observations ; à l’aide de ces données, il est aisé de construire un ajustement des probabilités conditionnelles de sortie de l’incapacité en lissant à l’aide de Whittaker-Henderson les taux bruts obtenus à l’aide de Kaplan-Meier :
On peut vérifier que la qualité de l’ajustement est très bonne.
Une technique alternative souvent utilisée dans ce contexte est de positionner les taux bruts par rapport à une référence externe, par exemple le BCAC, dans le cadre du modèle semi-paramétrique de Brass ; avec ce même jeu de données, cela conduit à un ajustement nettement moins bon que le précédent
Logiquement, dans ce cas, la technique non paramétrique conduit à de meilleurs résultats, l’ensemble de l’information étant apportée par les données. Supposons maintenant que l’on ne dispose que de 25 000 observations, soit 5 % de la base d’origine ; en comparant dans ce cas le lissage de Whittaker-Hendersn et le modèle de Brass on trouve :
On observe que les résultats issus de l’approche semi-paramétrique sont quasi identiques à ceux obtenus avec l’ensemble des données, mais qu’avec le modèle non paramétrique, les taux ajustés pour les anciennetés élevés sont erronés : le modèle propose même des taux de sortie de l’incapacité nuls sur certaines plages d’âges et d’ancienneté, ce qui n’est évidemment pas représentatif de la réalité.
Ainsi, le modèle semi-paramétrique, du fait de la structure qu’il apporte, est moins mauvais avec un petit échantillon que le modèle non paramétrique.
Source: Primact