Postée il y a 2 heures
Les outils d'inférence classique, en particulier les tests d'hypothèses et les intervalles de confiance, peuvent échouer de manière spectaculaire lorsqu'ils sont appliqués à des modèles statistiques dépendant des données. L'inférence post-sélection désigne un ensemble de travaux de recherche récents qui conçoivent et analysent des méthodes statistiques adaptées à ces modèles dépendant des données. En particulier, [3] traite des modèles linéaires gaussiens, et [2] propose des extensions aux contextes non linéaires et non gaussiens, basées sur des arguments asymptotiques.
L'objectif de ce projet de doctorat est d'étendre l'inférence post-sélection aux modèles à variables latentes. Ces modèles sont devenus la méthode de référence dans un large éventail d'applications [4, 6, 8] et font l'objet de nombreuses contributions récentes [1, 5]. Néanmoins, les garanties d'inférence post-sélection font actuellement défaut pour ces modèles, alors même que la sélection de modèles est courante en pratique [7, 9].
Cette extension, s'appuyant sur [2], nécessitera l'obtention de théorèmes centraux limites uniformes joints pour les estimateurs de paramètres avec variables latentes. De plus, d'un point de vue computationnel, l'estimation des paramètres sera réalisée à l'aide des algorithmes d'espérance-maximisation (EM) et de leurs extensions. Cela impliquera également des développements mathématiques pour prendre en compte le contexte de l'inférence post-sélection.
[1] P. Abry, J. Chevallier, G. Fort, and B. Pascal. Pandemic intensity estimation from stochastic approximation-based algorithms. In 2023 IEEE 9th International Workshop on Computational Ad- vances in Multi-Sensor Adaptive Processing (CAMSAP), pages 356–360. IEEE, 2023.
[2] F. Bachoc, D. Preinerstorfer, and L. Steinberger. Uniformly valid confidence intervals post-model- selection. The Annals of Statistics, 48(1):440–463, 2020.
[3] R. Berk, L. Brown, A. Buja, K. Zhang, and L. Zhao. Valid post-selection inference. The Annals of Statistics, pages 802–837, 2013.
[4] D. M. Blei. Build, compute, critique, repeat: Data analysis with latent variable models. Annual Review of Statistics and Its Application, 1(1):203–232, 2014.
[5] J. Chevallier, V. Debavelaere, and S. Allassonniere. A coherent framework for learning spatiotemporal piecewise-geodesic trajectories from longitudinal manifold-valued data. SIAM Journal on Imaging Sciences, 14(1):349–388, 2021.
[6] B. Everett. An introduction to latent variable models. Springer Science & Business Media, 2013.
[7] S. Lotfi, P. Izmailov, G. Benton, M. Goldblum, and A. G. Wilson. Bayesian model selection, the marginal likelihood, and generalization. In International Conference on Machine Learning, pages 14223–14247. PMLR, 2022.
[8] B. O. Muth ́en. Beyond SEM: General latent variable modeling. Behaviormetrika, 29(1):81–117, 2002.
[9] Y.-Q. Zhang, G.-L. Tian, and N.-S. Tang. Latent variable selection in structural equation models. Journal of Multivariate Analysis, 152:190–205, 2016.
Contexte de travail
Le doctorant (la doctorante) sera basé(e) à l'Institut de Mathématiques de Toulouse (IMT). La thèse sera co-encadrée par François Bachoc et Juliette Chevallier (Institut de Mathématiques de Toulouse). Le projet de doctorat sera financé par le projet QHTHY impliquant des acteurs industriels. L'étudiant(e) sélectionné(e) aura la possibilité (non obligatoire) d'assister à des séminaires avec ces acteurs industriels et de travailler sur des jeux de données réelles issues du projet QHTHY. La thèse durera trois ans et débutera le 1er octobre 2025.
Contraintes et risques
La thèse sera rattachée à l'Institut de Mathématiques de Toulouse.
Plusieurs courts déplacements à Marseille et Cadarache sont possibles dans le cadre du projet QHTHY.
Informations complémentaires
Profil du candidat / de la candidate : Nous recherchons des candidat(e)s titulaires d'un diplôme en mathématiques, avec une spécialisation en probabilité, statistique, apprentissage automatique ou mathématiques appliquées. De solides compétences théoriques sont attendues
Profil du candidat / de la candidate : Nous recherchons des candidat(e)s titulaires d'un diplôme en mathématiques, avec une spécialisation en probabilité, statistique, apprentissage automatique ou mathématiques appliquées. De solides compétences théoriques sont attendues