Actualités & Blog du LabCom
Les facteurs de confusion
20/02/2019
Florent Le Borgne
Dans les essais randomisés contrôlés, la comparabilité des groupes d’études est assurée par l’attribution aléatoire de l’exposition (à condition que le nombre de sujets inclus soit suffisamment important).
Dans les études observationnelles les patients des groupes étudiés (traités/ non traités ou exposés/ non-exposés) sont souvent différents invalidant la comparaison directe entre les groupes.
Pour mieux comprendre, prenons l’exemple suivant où nous souhaitons comparer l’efficacité d’un traitement médicamenteux par rapport à un traitement chirurgical pour guérir d'une tumeur. Les données sont les suivantes :
On observe donc un taux de guérison de 76% pour le médicament conte un taux de guérison de 66% pour la chirurgie semblant indiquer une supériorité du médicament. Cependant si on regarde les données par taille de tumeur, voici ce que l''on observe:
Ainsi, les taux de guérisons sont supérieurs pour la chirurgie, à la fois pour les petites tumeurs et pour les grosses tumeurs. Cette observation qui semble contradictoire avec la précédente s’explique par le fait que le traitement médicamenteux ait été davantage indiqué pour les petites tumeurs qui ont une meilleure guérison indépendamment du traitement utilisé. On parle alors de « facteur de confusion ».
La définition formelle d’un facteur de confusion est un facteur associé à la fois à l’exposition et à l’événement sans être une conséquence de l’exposition (c’est à dire sur le chemin causal).
Ces facteurs de confusion engendrent des biais de confusion lors de l’estimation de la causalité de l’effet de l’exposition sur l’événement et doivent donc être pris en compte lors de l’analyse statistique. Différentes méthodes le permettent, les plus couramment utilisées en épidémiologie sont les suivantes :
• La stratification consiste à diviser l’échantillon d’étude en sous-groupes (aussi appelés strates), chaque strate représente un profil défini par les combinaisons possibles des niveaux des facteurs de confusion. C’est la méthode utilisée dans notre exemple précédent.
• L’appariement propose de choisir pour chaque sujet exposé un ou plusieurs sujet(s) non-exposé(s) ayant des caractéristiques identiques (ou très proches) pour les facteurs confondants.
• La modélisation multivariée utilise l’ensemble des observations pour estimer les associations entre les facteurs de confusion et l’événement et fournir une estimation ajustée de l’effet causal individuel de l’exposition.
• La pondération IPW (inverse probability weighting) consiste à utiliser un score de propension dans lequel l’information contenue dans les différents facteurs de confusion est résumée. L’idée de la méthode IPW est de pondérer la contribution de chaque sujet par l’inverse de la probabilité qu’il avait de recevoir l’exposition qu’il a vraiment reçu.
• L’appariement sur le score de propension consiste à apparier chaque sujet exposé à un ou plusieurs sujet(s) non-exposé(s) ayant une valeur proche du score de propension.
Les deux premières méthodes ont pour principaux inconvénients de limiter l’analyse à un nombre restreint de facteurs de confusion et d’être associées à une moins bonne puissance statistique.
La méthode d’appariement est associée à une perte de puissance statistique du fait de l’exclusion de sujets.
En effet, les sujets exposés ne trouvant pas de paires sont exclus ainsi qu’un certain nombre de sujets non-exposés non utilisés (par exemple si 40% des sujets sont exposés, dans le cas d’un appariement 1:1 un maximum de 80% de l’échantillon total sera utilisé).
Cette exclusion de sujets peut aussi être une source de biais de sélection (les sujets inclus ne sont pas représentatifs de l’échantillon initial). La modélisation multivariée est la méthode la plus couramment utilisée.
Elle permet de prendre en compte simultanément un nombre important de facteurs de confusion (à condition d’avoir suffisamment d’évènements étudiés pour éviter le surajustement) et ne nécessite pas de catégoriser les facteurs quantitatifs. La méthode IPW est de plus en plus fréquemment utilisée dans la littérature médicale.
Comme la modélisation multivariée, elle permet de prendre en compte un nombre important de facteurs de confusion. Notons cependant qu’il existe des différences dans la nature des effets estimés selon la méthode utilisée. Cette notion sera explicitée dans un futur post.