Page Title

Publications

Dans un souci de transparence et d’information, le BFP publie régulièrement les méthodes et résultats de ses travaux. Les publications sont organisées en séries, entre autres, les perspectives, les working papers et planning papers. Certains rapports peuvent également être consultés ici, de même que les bulletins du Short Term Update publiés jusqu’en 2015. Une recherche par thématique, type de publication, auteur et année vous est proposée.

Modelling unobserved heterogeneity in distribution - Finite mixtures of the Johnson family of distributions [Working Paper 14-17]

La présente étude propose un nouveau modèle pour rendre compte de l’hétérogénéité non observée dans la modélisation empirique. Le modèle élargit le modèle de classes latentes bien connu en utilisant la famille de distributions Johnson. Vu la grande diversité de formes de distribution pouvant être adoptées par la famille Johnson, la méthode n’impose pas les hypothèses a priori habituelles concernant le type de densités qui sont mélangées.

Grâce à la disponibilité croissante de microdonnées dans de nombreux domaines de la recherche appliquée, les modèles de mélange fini (finite mixture models ou FMM) deviennent un outil de plus en plus populaire pour modéliser l’hétérogénéité non observée entre sujets. Les FMM, également appelés modèles de classe latente (latent class models ou LCM) partent de l’hypothèse que les observations d’un échantillon proviennent d’un nombre (inconnu) de sous-groupes ou classes hétérogènes et permettent d’estimer les paramètres par sous-groupe. Ils ont été utilisés dans le domaine économique pour analyser notamment l’utilisation et les dépenses de soins de santé, l’offre de travail, la productivité et la segmentation de marché. Les modèles sont également abondamment utilisés dans d’autres domaines de la recherche appliquée comme la biologie, la psychologie, la biostatistique, etc. L’hétérogénéité non observée modélisée à l’aide des FMM porte habituellement sur la moyenne de la distribution, même si la variance a également été modélisée (parfois de manière implicite, comme dans le cas de la distribution gamma). La pratique actuelle en recherche économique appliquée revient à choisir une forme de distribution (normale, log-normale, gamma, Poisson, etc.) pour les composants, généralement sur la base de considérations a priori relatives à l’étendue et à la forme de la distribution de population.

Un inconvénient de cette approche est qu’elle impose de deux manières au moins des restrictions a priori quant à la nature de l’hétérogénéité non observée. Tout d’abord, le choix de la distribution est généralement assez arbitraire ; elle n’est habituellement pas confrontée à une alternative plus générale (moins restrictive). Deuxièmement, alors que le nombre « réel » de classes latentes est en principe inconnu, on suppose systématiquement que les composants suivent la même distribution. En d’autres termes, on suppose que les composants mixtes ne diffèrent entre eux qu’en ce qui concerne les paramètres de la distribution choisie, mais pas en ce qui concerne la distribution elles-même.

Cette étude aborde ces problèmes en assouplissant certaines de ces hypothèses implicites. Elle se base sur une forme flexible pour les distributions de composants. Plusieurs formes flexibles ont été proposées et étudiées par le passé, dont les familles Pearson et Johnson. Ces familles ont ceci en commun qu’elles peuvent adopter des formes très diverses en fonction de la valeur de leurs quatre paramètres. En réalité, la plupart des distributions utilisées couramment sont des cas spéciaux de ces deux familles. L’étude décrit un algorithme pouvant être utilisé pour estimer les paramètres d’un mélange de distributions Johnson et donne une preuve de principe que la méthode fonctionne et constitue une possible amélioration par rapport à la pratique courante pour les modèles de classe latente.

La méthode a été testée sur des données générées à partir de différentes distributions choisies pour couvrir un large éventail de combinaisons d’asymétrie et d’aplatissement. Les premiers résultats sont encourageants. La méthode converge pratiquement aussi vite que les méthodes standard qui mélangent des distributions normales ou gamma. Plus important encore, lorsque les données sont générées à partir de distributions mixtes qui diffèrent sensiblement des hypothèses standard (distributions de composants identiques et valeurs ‘régulières’ d’asymétrie et d’aplatissement), le mélange de distributions Johnson donne généralement de meilleurs résultats (qualité de l’ajustement) que les modèles standard.

La méthode n’a pas encore été testée pour un mélange de modèles de régression. C’est naturellement l’étape qu’il faudra franchir pour en faire un instrument de recherche pratique.

  Documents associés

None

  PDF & Download

  Auteurs

Peter Willemé (A)
 
A : Auteur, C : Contributeur

Date(s)

31/08/2017

  Type de publication

Planning & Working Papers

Please do not visit, its a trap for bots