Thèmes de recherche

Les enseignants-chercheurs de l'unité pédagogique de Mathématiques Appliquées ont tous des activités de recherche en lien avec l'un des thèmes de recherche privilégiés de l'équipe de statistique de l'IRMAR Statistiques de données complexes et big data.
Plus dans le détail, 4 angles de recherche sont utilisés.

L’analyse de systèmes complexes à partir de technologies générant un grand volume de données est un enjeu commun à de nombreuses disciplines scientifiques : parmi celles-ci, la biologie intégrative est parmi celles dont les problématiques suscitent les avancées théoriques les plus significatives de la méthodologie statistique d’analyse de données hétérogènes en grande dimension. Dans ce contexte, le vivant est vu comme un ensemble de composantes en interaction (génome, transcriptome, métabolome, protéome) pour lequel les biotechnologies donnent une information à grande échelle, caractérisée par son grand volume (lié à la taille du système étudié) mais également par sa sensibilité à divers facteurs d’hétérogénéité.

Statistique pour la biologie intégrative

En étroite collaboration avec l’UMR PEGASE (l'Institut Agro Rennes-Angers – INRAE), les activités de recherche de l'équipe  sur ce thème sont principalement centrées sur l’impact de l’hétérogénéité des données sur les propriétés des méthodes d’inférence en grande dimension, et plus particulièrement sur l’instabilité de sélection de modèles que génèrent certaines structures de dépendance forte. Cette thématique prolonge celle abordée par Chloé Friguet dans sa thèse, soutenue en septembre 2010 (école doctorale Matisse), concernant l’impact de la dépendance sur les procédures de tests multiples en grande dimension. En particulier, depuis 2009, la thèse de Yuna Blum (école doctorale VAS, co-dirigée par S. Lagarrigue, Professeur, l'Institut Agro Rennes-Angers) porte sur l’inférence de réseaux de régulation génique par modélisation de composantes d’interaction entre gènes. généralement, ce travail de recherche en biologie des systèmes a donné lieu à la création d’un groupe de travail fédérant les acteurs locaux de la recherche en statistique pour la biologie intégrative. Ce groupe est acteur de deux projets ANR soumis en 2011 et un package R est disponible pour l’ensemble des méthodes issues de ce travail collaboratif.

Modélisation de l’activité cérébrale par données de type Event-Related Potentials

Par analogie avec la représentation du vivant en biologie intégrative, le cerveau peut également être vu comme un système de composantes en interaction, observable de manière dynamique par les technologies d’électro-encéphalographie. En collaboration avec le département de psychologie de National Cheng-Kung University (Tainan, Taiwan), le LMA2 propose une modélisation des variations de l’activité cérébrale à partir de données d’électro-encéphalographiques obtenues dans des expériences au cours desquelles les instructions données aux sujets sont changeantes (switching task). Sur le plan méthodologique, l’objectif est de tenir compte de la dimension spatio-temporelle de l’organisation de cette activité cérébrale dans les procédures de tests multiples visant, par exemple, à quantifier la réapparition de fonctions du cerveau après un AVC.
Modélisation d’une dynamique épidémiologique à partir d’informations multi-sources

Une collaboration avec l’Unité BioEpaR (Oniris, Nantes) donne lieu à la direction de la thèse d’Anne Lehebel (2010-1013, école doctorale Matisse) sur la modélisation d’une dynamique épidémiologique animale non-observée à partir d’informations multi-sources. Cette thèse vise à mettre en place un système de surveillance épidémiologique en explorant la possibilité de transposer à un contexte épidémiologique les modèles espace-état étudiés par Pierre Tandeo dans une thèse soutenue en octobre 2010 (école doctorale VAS) sur la modélisation spatio-temporelle des variations de température à la surface des océans.
 

Pour ce thème, nos recherches sont centrées sur les représentations euclidiennes d’objets multidimensionnels. Une part importante de ces recherches est dédiée à l’élaboration de nouvelles méthodes d’analyse de tableaux multiples, en particulier à l’aide d’extensions de l’Analyse Factorielle Multiple (AFM).

Analyse factorielle de données de types variés

L’analyse factorielle simultanée de variables quantitatives et qualitatives est un problème fréquent et ancien, auquel nous avons contribué par la proposition d’une panoplie de méthodologies. L’analyse factorielle de données mixtes (AFDM) pour le cas d’un seul groupe de variables (des deux types) ; l’analyse factorielle multiple (AFM) dans le cas de plusieurs groupes, chaque comportant des variables quantitatives et/ou qualitatives ; l’analyse factorielle multiple hiérarchique (AFMH) dans le cas où les variables (des deux types) sont structurées selon une hiérarchie.

Parallèlement, une extension de l’AFM à un ensemble de tableaux de contingence présentant des lignes homologues a été mise au point avec M. Bécue (Université de Barcelone) : l’AFM de tableaux de contingence (AFMTC). A partir de l’AFMTC, nous avons envisagé l’introduction de variables quantitatives et/ou qualitatives simultanément à des variables de types fréquences (il s’agit d’un bloc de colonnes qui, croisé avec les individus, constitue un tableau de contingence). Il en a résulté une extension de l’AFM à large potentiel d’application.

Données manquantes en analyse factorielle

La question des données manquantes en Analyse en Composantes Principales (ACP) est un problème rencontré fréquemment et qui a donné lieu à de nombreux travaux. Nous avons défini un cadre commun permettant de comparer plusieurs algorithmes existants (NIPALS, une approche par moindres carrés alternés pondérés et une approche par ACP itérative). Deux problèmes majeurs sont apparus: le sur-ajustement et le choix du nombre de dimensions du modèle (nécessaire pour la reconstitution des données). La formulation probabiliste de l'ACP (Tipping & Bishop, 1997) a permis de proposer un terme de régularisation pour pallier le problème du sur-ajustement. Les algorithmes proposés s’appuient sur un nombre d’axes qui doit être défini. Nous avons repris ce problème, ce qui constitue en quelque sorte une étude dans l’étude. Pour le choix du nombre d'axes, la validation croisée est une stratégie tout à fait adaptée mais très coûteuse en tant de calcul. Nous avons proposé une approximation de la validation croisée qui permet de s'affranchir du problème du temps de calcul et fournit de bonnes estimations du nombre d'axes.

Les méthodes proposées fournissent une estimation simple des paramètres et des données manquantes. Nous nous sommes également intéressés à l'incertitude sur les résultats de l'ACP liée aux données manquantes grâce à une adaptation de l'imputation multiple au cadre de l'ACP. Cette incertitude peut être matérialisée à l'aide d'ellipses de confiance autour des estimations des paramètres.

Validité en analyse factorielle

Traditionnellement, l’analyse factorielle, au sens ou ce terme est entendu en France, est une famille de méthodes descriptives (ou exploratoires). Aussi, la validité des résultats obtenus est-elle appréciée sur la base d’une expertise des données. Ceci fonctionne très bien dans la plupart des cas pour la validité globale mais l’utilisateur attend des éléments de validité pour chacun des résultats. Dans cet esprit nous avons proposé dans plusieurs cas particulier des zones de confiance autour des objets (individus, modalités de variables qualitatives, variables quantitatives) représentés, en ACP, en Analyse Factorielle Multiple (AFM) et en Analyse Factorielle Multiple Hiérarchique. Ces zones sont disponibles (en « exclusivité !) dans les deux logiciels libres (FactoMineR et SensoMineR) que nous avons mis sur le marché en 2006.

Plus récemment, nous avons été confrontés à des ensembles de données dont la validité de la structure globale sous-jacente n’allait pas de soi (en particulier lorsque le nombre de variables excède sensiblement le nombre d’individus) : Nous avons développé, et implanté dans nos logiciels, une première série de tests.
 

Ce thème est traité dans deux cadres

Analyse factorielle

La question des données manquantes en Analyse en Composantes Principales (ACP) est un problème rencontré fréquemment et qui a donné lieu à de nombreux travaux. Nous avons défini un cadre commun permettant de comparer plusieurs algorithmes existants (NIPALS, une approche par moindres carrés alternés pondérés et une approche par ACP itérative). Deux problèmes majeurs sont apparus: le sur-ajustement et le choix du nombre de dimensions du modèle (nécessaire pour la reconstitution des données). La formulation probabiliste de l'ACP (Tipping & Bishop, 1997) a permis de proposer un terme de régularisation pour pallier le problème du sur-ajustement. Les algorithmes proposés s’appuient sur un nombre d’axes qui doit être défini. Nous avons repris ce problème, ce qui constitue en quelque sorte une étude dans l’étude. Pour le choix du nombre d'axes, la validation croisée est une stratégie tout à fait adaptée mais très coûteuse en tant de calcul. Nous avons proposé une approximation de la validation croisée qui permet de s'affranchir du problème du temps de calcul et fournit de bonnes estimations du nombre d'axes.

Les méthodes proposées fournissent une estimation simple des paramètres et des données manquantes. Nous nous sommes également intéressés à l'incertitude sur les résultats de l'ACP liée aux données manquantes grâce à une adaptation de l'imputation multiple au cadre de l'ACP. Cette incertitude peut être matérialisée à l'aide d'ellipses de confiance autour des estimations des paramètres.

Modèle linéaire

Le problème initialement abordé dans le cadre de la thèse de doctorat de D. Causeur était la construction de plans d'échantillonnage intégrant de manière optimale une information auxiliaire. Ce travail s'est progressivement positionné dans le contexte plus général de l'estimation optimale de paramètres de modèles de régression en présence de données incomplètes. La transposition à cette situation de méthodes d'estimation quadratique optimale de composantes de la variance de modèles mixtes donne aujourd'hui lieu au développement de stratégies de test prolongeant l'approche linéaire classique au cas de données incomplètes. Les plans d'échantillonnage issus de ces approches font partie des recommandations du projet européen Eupigclass (5e PCRDT) pour les questions de classement de carcasses de porcs.
Ce travail fait aujourd’hui l’objet d’une collaboration avec Brigitte Gelein et Guillaume Chauvet (CREST-ENSAI) et David Haziza (Université de Montreal) sur le traitement optimal de la non-réponse en théorie des sondages.
 

L’analyse sensorielle est un domaine privilégié d’application des méthodes et méthodologies que nous développons. À l’origine, ce domaine ne nous servait qu’à illustrer l’intérêt pour l’utilisateur de nos résultats dans le domaine de la statistique. Puis, petit à petit, nous avons acquis une expertise dans le domaine : la connexion entre les deux expertises, statistique et analyse sensorielle, a permis de proposer de nouvelles méthodologies de recueil de données sensorielles qui ont connu un succès certain dans la profession. C’est en premier lieu le cas du napping®, méthodologie de recueil direct de distances sensorielles maintenant couramment utilisée dans l’industrie, en France et à l’étranger. Cette méthode a été récemment enrichie par l’ajout par les sujets d’éléments qualitatifs.