Complément à la fiche 74. Validation sur données supplémentaires
Étapes subsidiaires.
Si, par curiosité, nous excluons successivement Amygdale2 puis Striatum
(en nous basant sur la même règle concernant la p-value maximale), nous observons une forte
chute du coefficient R², une augmentation de sa p-value associée, et une chute du coefficient R²-
ajusté, ce qui confirme que le choix du modèle obtenu à l’étape 10 était justifié.
Outre le R² ajusté, il existe d’autres critères permettant de sélectionner le modèle. Nous nous
limiterons à citer l’AIC (Critère d’information d’Akaike), l’AIC corrigé, le BIC (critère d’infor-
mation Bayésien)...
Validation externe du modèle
Dix sujets supplémentaires ont été testés.
CerveauSup <- read.table("CerveauSup.txt", h=T)
Les prédictions du modèle concernant les scores sont calculées :
Predict <- 0.8898 * CerveauSup$Hippocampe1 - 0.9555 *
CerveauSup$Striatum - 0.7550 * CerveauSup$Amygdale2 + 178.004
dim(Predict) = c(10,1)
Enfin, ces prédictions sont comparées aux valeurs observées
cor.test(CerveauSup$Score, Predict, alternative="greater")
t.test(CerveauSup$Score, Predict, paired=TRUE)
Le coefficient de corrélation de Pearson entre valeurs prédites et observées est r = 0,688, coef-
ficient de corrélation significatif (p = 0,014 ; t = 2,68 ; ddl = 8 ; test unilatéral). De plus, le test t
de Student pour échantillons appariés ne montre pas de biais systématique significatif (p = 0,56 ;
t = 0,60 ; ddl = 9). Nous pouvons donc consédérer que le modèle possède une valeur prédictive. La question de savoir si sa valeur prédictive est satisfaisante dépendra des exigences du cher-
cheur au regard du coefficient de corrélation entre les valeurs prédites et les valeurs observées, et
évidemment des résultats au test t de Student.
plot(Predict, CerveauSup$Score, pch=16, cex=1.5)
permet d'obtenir le graphique des résultats obtenus en fonction des prédictions.