La Paillasse et le laboratoire Roche ont lancé cet automne un projet collaboratif, Challenge4Cancer dont l’objectif est de fournir des analyses ou des modèles prédictifs sur le cancer, à partir de jeux de données ouverts et d’outils technologiques mis à la disposition des participants. De manière plus précise, il s’agit d’identifier des facteurs de risque ou de prévention du cancer à partir de l’open data.
Par exemple, B. Joffin et J. Lam (ENSAE) ont choisit d’étudier l’impact de la pollution et de certains facteurs comportementaux et sociaux sur la mortalité liée au cancer. Leur rapport est accessible en ligne, avec le code (Python) utilisé et les liens vers les bases de données.
Cette étude fournit un cas d’école très bien structuré de l’approche à retenir dans ce type d’étude, en présence de données agrégées et montre au surplus que les méthodes de régression traditionnelles fournissent de bons résultats, ici même meilleurs que des approches non paramétriques sophistiquées comme le Gradient Boosting.
Nous reviendrons ici dans quelques semaines sur les résultats obtenus dans le cadre de ce projet.