Regression Avec Python
Pierre-andre Cornillon-Eric Matzner-lber-Laurent Rouviere
français | 15-05-2025 | 424 pages
9782759824328
Livre
34,00€
à paraître, disponible à partir du 15/05/2025
Commandez en ligne
Récupérez votre commande en magasin
Brève description / annotation
Remerciements vii Avant-Propos ix I Introduction au modèle linéaire 1 1 La régression linéaire simple 3 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 Un exemple : la pollution de l'air . . . . . . . . . . . . . . . 3 1.1.2 Un second exemple : la hauteur des arbres . . . . . . . . . . 5 1.2 Modélisation mathématique . . . . . . . . . . . . . . . . . . . . . 7 1.2.1 Choix du critère de qualité et distance à la droite . . . . . . 7 1.2.2 Choix des fonctions à utiliser . . . . . . . . . . . . . . . . . 9 1.3 Modélisation statistique . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 11 1.4.1 Calcul des estimateurs de ßj , quelques propriétés . . . . . . 11 1.4.2 Résidus et variance résiduelle . . . . . . . . . . . . . . . . . 15 1.4.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5 Interprétations géométriques . . . . . . . . . . . . . . . . . . . . . 16 1.5.1 Représentation des individus . . . . . . . . . . . . . . . . . 16 1.5.2 Représentation des variables . . . . . . . . . . . . . . . . . . 17 1.6 Inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2 La régression linéaire multiple 31 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 34 2.3.1 Calcul de ß . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.2 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.3 Quelques propriétés statistiques . . . . . . . . . . . . . . . . 38 2.3.4 Résidus et variance résiduelle . . . . . . . . . . . . . . . . . 40 2.3.5 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . 42 2.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3 Validation du modèle 51 3.1 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.1.1 Les différents résidus . . . . . . . . . . . . . . . . . . . . . . 52 3.1.2 Ajustement individuel au modèle, valeur aberrante . . . . . 53 3.1.3 Analyse de la normalité . . . . . . . . . . . . . . . . . . . . 54 3.1.4 Analyse de l'homoscédasticité . . . . . . . . . . . . . . . . . 55 3.1.5 Analyse de la structure des résidus . . . . . . . . . . . . . . 56 3.2 Analyse de la matrice de projection . . . . . . . . . . . . . . . . . . 59 3.3 Autres mesures diagnostiques . . . . . . . . . . . . . . . . . . . . . 60 3.4 Effet d'une variable explicative . . . . . . . . . . . . . . . . . . . . 63 3.4.1 Ajustement au modèle . . . . . . . . . . . . . . . . . . . . . 63 3.4.2 Régression partielle : impact d'une variable . . . . . . . . . 64 3.4.3 Résidus partiels et résidus partiels augmentés . . . . . . . . 65 3.5 Exemple : la concentration en ozone . . . . . . . . . . . . . . . . . 67 3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4 Extensions : non-inversibilité et (ou) erreurs corrélées 73 4.1 Régression ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.1.1 Une solution historique . . . . . . . . . . . . . . . . . . . . 74 4.1.2 Minimisation des MCO pénalisés . . . . . . . . . . . . . . . 75 4.1.3 Equivalence avec une contrainte sur la norme des coefficients 75 4.1.4 Propriétés statistiques de l'estimateur ridge ßridge . . . . . . 76 4.2 Erreurs corrélées : moindres carrés généralisés . . . . . . . . . . . . . 78 4.2.1 Erreurs hétéroscédastiques . . . . . . . . . . . . . . . . . . . 79 4.2.2 Estimateur des moindres carrés généralisés . . . . . . . . . 81 4.2.3 Matrice O inconnue . . . . . . . . . . . . . . . . . . . . . . 84 4.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5 Régression polynomiale et régression spline 87 5.1 Régression polynomiale . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2 Régression spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.2.2 Spline de régression . . . . . . . . . . . . . . . . . . . . . . 92 5.3 Spline de lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 II Inférence 101 6 Inférence dans le modèle gaussien 103 6.1 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 103 Table des matières xiii 6.2 Nouvelles propriétés statistiques . . . . . . . . . . . . . . . . . . . 104 6.3 Intervalles et régions de confiance . . . . . . . . . . . . . . . . . . . 106 6.4 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.5 Les tests d'hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.5.2 Test entre modèles emboîtés . . . . . . . . . . . . . . . . . . 111 6.6 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.8 Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.8.1 Intervalle de confiance : bootstrap . . . . . . . . . . . . . . 121 6.8.2 Test de Fisher pour une hypothèse linéaire quelconque . . . 123 6.8.3 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . 125 7 Variables qualitatives : ANCOVA et ANOVA 129 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 7.2 Analyse de la covariance . . . . . . . . . . . . . . . . . . . . . . . . 131 7.2.1 Introduction : exemple des eucalyptus . . . . . . . . . . . . 131 7.2.2 Modélisation du problème . . . . . . . . . . . . . . . . . . . 133 7.2.3 Hypothèse gaussienne . . . . . . . . . . . . . . . . . . . . . 135 7.2.4 Exemple : la concentration en ozone . . . . . . . . . . . . . 136 7.2.5 Exemple : la hauteur des eucalyptus . . . . . . . . . . . . . 140 7.3 Analyse de la variance à 1 facteur . . . . . . . . . . . . . . . . . . . 142 7.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 142 7.3.2 Modélisation du problème . . . . . . . . . . . . . . . . . . . 143 7.3.3 Interprétation des contraintes . . . . . . . . . . . . . . . . . 145 7.3.4 Estimation des paramètres . . . . . . . . . . . . . . . . . . 145 7.3.5 Hypothèse gaussienne et test d'influence du facteur . . . . . 147 7.3.6 Exemple : la concentration en ozone . . . . . . . . . . . . . 148 7.3.7 Une décomposition directe de la variance . . . . . . . . . . 152 7.4 Analyse de la variance à 2 facteurs . . . . . . . . . . . . . . . . . . 153 7.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4.2 Modélisation du problème . . . . . . . . . . . . . . . . . . . 154 7.4.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . 156 7.4.4 Analyse graphique de l'interaction . . . . . . . . . . . . . . 157 7.4.5 Hypothèse gaussienne et test de l'interaction . . . . . . . . 158 7.4.6 Exemple : la concentration en ozone . . . . . . . . . . . . . 161 7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 7.6 Note : identifiabilité et contrastes . . . . . . . . . . . . . . . . . . . 165 III Réduction de dimension 167 8 Choix de variables 169 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 8.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 8.3 Choix incorrect de variables : conséquences . . . . . . . . . . . . . 172 8.3.1 Biais des estimateurs . . . . . . . . . . . . . . . . . . . . . 172 8.3.2 Variance des estimateurs . . . . . . . . . . . . . . . . . . . . 174 8.3.3 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . 175 8.3.4 Erreur quadratique moyenne de prévision . . . . . . . . . . 177 8.4 Critères classiques de choix de modèles . . . . . . . . . . . . . . . 179 8.4.1 Tests entre modèles emboîtés . . . . . . . . . . . . . . . . . 180 8.4.2 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 8.4.3 Le R2 ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . 182 8.4.4 Le Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . 183 8.4.5 Vraisemblance et pénalisation . . . . . . . . . . . . . . . . . 185 8.4.6 Liens entre les critères . . . . . . . . . . . . . . . . . . . . . 187 8.5 Procédure de sélection . . . . . . . . . . . . . . . . . . . . . . . . . 189 8.5.1 Recherche exhaustive . . . . . . . . . . . . . . . . . . . . . . 189 8.5.2 Recherche pas à pas . . . . . . . . . . . . . . . . . . . . . . 189 8.6 Exemple : la concentration en ozone . . . . . . . . . . . . . . . . . 191 8.6.1 Variables explicatives quantitatives . . . . . . . . . . . . . . 191 8.6.2 Intégration de variables qualitatives . . . . . . . . . . . . . 192 8.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 8.8 Note : Cp et biais de sélection . . . . . . . . . . . . . . . . . . . . . 195 9 Régularisation des moindres carrés : ridge, lasso et elastic-net 199 9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 9.2 Problème du centrage réduction des variables . . . . . . . . . . . . 202 9.3 Propriétés des régressions ridge et lasso . . . . . . . . . . . . . . . 203 9.3.1 Interprétation géométrique . . . . . . . . . . . . . . . . . . 207 9.3.2 Simplification quand les X sont orthogonaux . . . . . . . . 209 9.3.3 Choix de ? par validation croisée . . . . . . . . . . . . . . . 211 9.4 Régularisation avec le module scikitlearn . . . . . . . . . . . . . . . 214 9.4.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . 215 9.4.2 Chemin de régularisation . . . . . . . . . . . . . . . . . . . 216 9.4.3 Choix du paramètre de régularisation a . . . . . . . . . . . 217 9.4.4 Mise en pratique . . . . . . . . . . . . . . . . . . . . . . . . 219 9.5 Intégration de variables qualitatives . . . . . . . . . . . . . . . . . 219 9.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 9.7 Note : lars et lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 10 Régression sur composantes : PCR et PLS 229 10.1 Régression sur composantes principales (PCR) . . . . . . . . . . . 230 10.1.1 Changement de base . . . . . . . . . . . . . . . . . . . . . . 230 10.1.2 Estimateurs des MCO . . . . . . . . . . . . . . . . . . . . . 231
Détails
Code EAN : | 9782759824328 |
Editeur : | Edp Sciences |
Date de publication : | 15-05-2025 |
Format : | Livre |
Langue(s) : | français |
Hauteur : | 235 mm |
Largeur : | 154 mm |
Epaisseur : | 21 mm |
Poids : | 616 gr |
Stock : | à paraître |
Nombre de pages : | 424 |
Collection : | Pratique R |