En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour vous proposer des services et offres adaptés à vos centres d'intéréts.
Hello,
Page 74 (fiche 26) on donne la manière de calculer sur R la puissance d'un test de Student :
power.t.test(n,delta,sd,sig.level)
où delta=différence des moyennes, sd=sqrt{[(n_x-1)*s_x^2+(n_y-1)*s_y^2]/(n_x+n_y-2)}, sig.level=niveau de signification, et n est la taille d'échantillon par groupe. On suppose donc implicitement les 2 groupes de même taille (n=n_x=n_y). Je suppose que la formule de sd vaut si les 2 populations desquelles sont issus les échantillons sont normales (quoique je ne l'ai pas vérifié).
• Comment calcule-t-on cette puissance si n_x est différent de n_y ?
PS : je ne suis qu'à 1/5 du bouquin, donc désolé si c'est écrit + loin !
J'effectue une réponse en 4 étapes.
1) Pour répondre à cette question de façon accadémique, Zar (Biostatistical Analysis) suggère de prendre la moyenne harmonique de n1 et n2 pour remplacer le n identique pour les deux groupes.
2) En théorie, la formule n'est "garantie" que sous l'hypothèse de normalité des populations car c'est toujours sous cette hypothèse que ce genre de méthode statistique a été conçue, ce qui ne veut pas dire qu'elle est fausse sous certaines distributions différentes, ni qu'elle est exacte lorsque toutes les hypothèses de bases sont vraies...
3) Ainsi, de mon point de vue, une partie très pertinente de votre commentaire réside dans le "(quoique je ne l'ai pas vérifié)" car il arrive que l'on ait des surprises lorsqu'on tente de vérifier par des simulations l'efficacité des outils statistiques. A l'origine, un autre ouvrage devait venir compléter celui-ci pour montrer ce que j'avance au point 2) par des expériences de simulation (Montecarlo
essentiellement).
4) Donc personnellement, si je devais effectuer un calcul de puissance pour mes travaux en biologie, je commencerais par faire une estimation de la puissance par méthode de rééchantillonnage. En fonction de l'objectif de ce calcul (besoin spontané, demande d'un referee, estimation a posteriori…) je déciderais éventuellement d'utiliser une méthode statistique ou de me cantonner à la simulation. En fait, je pense que les méthodes de simulation vont progressivement remplacer celles issues des statistiques classiques.
Merci pour la réf ! En effet Zar cite Cohen (1988, "Statistical Power Analysis for the Behavioral Sciences", cf. page 42) qui précise qu'en prenant n'=moyenne harmonique de n_x et n_y n'=2*n_x*n_y/(n_x+n_y), on obtiendra une sous-estimation de la puissance du test. Plus précisément, pour alpha = 0.01, 0.05, 0.1, en test bilatéral et unilatéral à droite "mu_x - mu_y > 0", en supposant les 2 populations normales et de même variance sigma^2 et pour des ratios (mu_x - mu_y)sigma entre 0.1 et 1.4 :
- pour n_x/n_y entre 0.5 et 2 : l'écart absolu entre la véritable valeur de la puissance et la valeur calculée avec n' est "généralement" inférieur à 0.01
- pour n' > 25, en cas de grande différence entre n_x et n_y, la puissance du test sera largement sous-estimée.
Donc la moyenne harmonique des n_x et n_y n'est à utiliser que sous les hypothèses ci-dessus.
Les simulations de Monte Carlo sont certes très utiles (et pas chères) mais supposent qu'on connaisse la distribution de la population étudiée.
J'ai une autre curiosité quant aux méthodes de bootstrap mais je vais créer un topic indépendant. Merci :)
Vous ne disposez pas des permissions nécessaires pour répondre à un sujet de la catégorie Questions.
En vous inscrivant vous pourrez si vous le souhaitez être prévenu par email en cas de nouveauté (article, commentaire, sujet sur le forum) et personnaliser votre profil pour participer au site.