Rapport (Rapport De Recherche) Année : 2013
Estimation and Selection for the Latent Block Model on Categorical Data
1 LMO - Laboratoire de Mathématiques d'Orsay (Bâtiment 307, rue Michel Magat, Faculté des sciences, Université Paris-Saclay, 91405 Orsay Cédex - France)
"> LMO - Laboratoire de Mathématiques d'Orsay
2 SELECT - Model selection in statistical learning (1 rue Honoré d'Estienne d'Orves 91120 Palaiseau - France)
"> SELECT - Model selection in statistical learning
3 Heudiasyc - Heuristique et Diagnostic des Systèmes Complexes [Compiègne] (UTC, CS 60319 - 57 avenue de Landshut - 60203 Compiègne cedex - France)
"> Heudiasyc - Heuristique et Diagnostic des Systèmes Complexes [Compiègne]

Résumé

This paper is dealing with estimation and model selection in the Latent Block Model (LBM) for categorical data. First, after providing sufficient conditions ensuring the identifiability of this model, it generalises estimation procedures and model selection criteria derived for binary data. Secondly, it develops Bayesian inference through Gibbs sampling. And, with a well calibrated non informative prior distribution, Bayesian estimation is proved to avoid the traps encountered by the LBM with the maximum likelihood methodology. Then model selection criteria are presented. In particular an exact expression of the ICL criterion requiring no asymptotic approximation is derived. Finally numerical experiments on both simulated and real data sets highlight the interest of the proposed estimation and model selection procedures.

Cet article traite de l'estimation et de la sélection pour le modèle des blocs latents (LBM) avec données catégorielles. Nous commençons par donner des conditions suffisantes pour obtenir l'identifiabilité de ce modèle. Nous généralisons les procédures d'estimation et les critères de sélection obtenus dans le cadre binaire. Nous considérons l'inférence bayésienne à travers l'échantillonneur de Gibbs couplé avec une approche variationnelle~: avec une distribution a priori non informative correctement calibrée, ces algorithmes évitent mieux les extrema locaux que la méthodologie fréquentiste. Nous présentons des critères de sélection de modèle et nous donnons une forme exacte non asymptotique pour le critère ICL. Les résultats obtenus sur des données simulées et réelles illustrent l'intérêt de notre procédure d'estimation et de sélection de modèle.

Fichier principal
Vignette du fichier
RR-8264_V2.pdf (1) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00802764 , version 1 (20-03-2013)
hal-00802764 , version 2 (18-02-2014)
Identifiants
  • HAL Id : hal-00802764 , version 2

Citer

Christine Keribin, Vincent Brault, Gilles Celeux, Gérard Govaert. Estimation and Selection for the Latent Block Model on Categorical Data. [Research Report] RR-8264, INRIA. 2013, pp.30. ⟨hal-00802764v2⟩
913 Consultations
1442 Téléchargements

Partager

  • More