http://ens.math.univ-montp2.fr/SPIP...
d’autres sont modifiables en double-cliquant dessus,
d’autres encore ne sont pas modifiables par vous.
Toutes ces petites informations sont utilisables partout sur ce site.
— >
http://ens.math.univ-montp2.fr/SPIP...
— >
http://ens.math.univ-montp2.fr/SPIP... —>

Christophe ROLAND
| Équipe | Statut | Bur. | Tél. | Courriel | |||
| Proba-Stat | Associé | I3M |
Mise à jour : Janvier 2012
Articles Soumis [1]
|
|
| Articles à paraître [0] | |
Articles Publiés dans des revues internationales avec comité de lecture [9]
|
|
Rapports Techniques [2]
|
Ouvrages - Manuel scolaires [2]
|
Collaborations scientifiques
|
|
|
|
| L’algorithme E.M. | |||||||
|
L’algorithme EM introduit par Dempster, Laird et Rubin en 1977, est
une des méthodes les plus utilisées pour calculer itérativement des estimateurs
du maximum de vraisemblance (sous entendu le logarithme de la vraisemblance) et
donc le maximum de la vraisemblance lui-même dans le cas où le modèle probabiliste
est un modèle à données manquantes ou à données non observables.
Si ce n’est pas le cas, il est courant de
reformuler le problème initial en un problème à données manquantes
pour pouvoir l’utiliser. Il ne se restreint pas à l’estimation de densité, il est
aussi utilisé en classification des données et
en apprentissage machine. Son nom provient du fait qu’à chaque itération, il
est composé de deux étapes : une étape E où l’Espérance de la vraisemblance complétée
est calculée en tenant compte des dernières variables
observées, et une étape M (Maximisation) où les nouveaux
estimateurs du maximum de vraisemblance sont calculés en maximisant la vraisemblance
trouvée à l’étape E. Les paramètres trouvés à cette étape M sont ensuite utilisés
pour une nouvelle étape E et nous itérons ainsi de suite. Le critère d’arrêt heuristique
de cet algorithme
est soit la stationnarité de la vraisemblance soit un nombre maximal d’itérations
fixé initialement soit les deux critères précédents à la fois. La principale raison de son
succès réside dans le fait que ses itérations sont généralement
simples, autrement dit le calcul de l’Espérance et de la Maximisation sont "faciles" à
obtenir, qu’il conserve la croissance de la vraisemblance à chaque itération et qu’il est
peu
gourmand en mémoire. Par contre, selon son initialisation, il peut ne pas converger
vers le maximum global de la vraisemblance, mais plutôt vers un maximum local ou un point
selle. C’est pour cette raison qu’en pratique, les utilisateurs lancent l’algorithme EM
à partir de nombreuses valeurs initiales et choisissent pour solution les paramètres
qui donnent la plus grande vraisemblance. Un deuxième inconvénient majeur est sa vitesse
de convergence qui peut-être extrêmement lente, en particulier si la quantité de données
manquantes ou non observées est importante. Une citation de Lange (1995, dans Statisticia Sinica) : The missing data paradigm is ubiquitous in statistical applications, and the EM algorithm enjoys ever wider use. Any measure that improves the EM algorithm can only benefit consumers of statistics. | |||||||
| Sommaire | |||||||
| La dégénérescence | |||||||
Dans des modèles de mélange, nous appelons dégénérescence
de l’algorithme EM, une situation dans laquelle une des composantes
du mélange estimée par l’algorithme EM, converge vers un dirac.
Pour illustrer ce phénonème, prenons un modèle gaussien
univarié à deux composantes avec des données individuelles. Dans ce
cas, une des variances converge rapidement vers zéro et le maximum de la
vraisemblance tend vers l’infini. Les deux figures suivantes illustrent
ce phénonème : l’algorithme EM dégénère à partir de 4 itérations !!!
|
|||||||
| Sommaire |
http://chez.moi.com À UTILISER AVEC PRÉCAUTION : IL VOUS SERA DIFFICILE DE L’ENLEVER ! —>





