Projet 7 - Effectuez une prédiction de revenus

▪ Mission 4.1. : ANOVA et régression linéaire à 2 variables explicatives

Table des matières

paramètres

Haut de page    

1. ANOVA à 1 facteur : le pays

1.1. Cadre d'analyse : le modèle linéaire

  • Objectif : expliquer le revenu des individus en fonction du pays
  • Principe de l'analyse de la variance (ANOVA) : déterminer si les moyennes de plusieurs groupes sont différentes grâce à la décomposition de la variance

         -> ici on veut mesurer l'influence de la variable explicative "pays" (variable catégorielle) sur la variable à expliquer "revenus" (variable continue)
Remarque :
On parle ici de modèle linéaire car on va utiliser les données sans les transformer (par opposition au modèle logarithmique)

1.1.1. Représentation graphique

Représentation graphique pour les 6 pays retenus lors de la mission 2 :
Slovénie, Honduras, Géorgie, États-Unis, Ukraine, Paraguay

Les Etats-Unis ont des valeurs extrèmes très importantes, "écrasant" ainsi les distributions des autres pays.
=> on réalise un nouveau graphique en excluant les Etats-Unis

Haut de page    

1.1.2. Apport théorique

- Hypothèse nulle H0 : Les moyennes des différents groupes sont égales
- Hypothèse alternative H1 : Tous les groupes n'ont pas la même moyenne
Si la p-value est inférieure à 0,05, nous rejetons l'hypothèse nulle en faveur de l'alternative :
  -> cela signifie qu'au moins une moyenne de groupe est significativement différente.


  • Le test d'ANOVA (analyse de la variance) :

    • Test F qui permet de savoir si nos résultats sont significatifs, et donc si on peut rejet l'hypothèse nulle H0 au profit de l'hypothèse alternative H1

    • calcul de eta² (η²) afin de savoir si notre variable qualitative et notre variable quantitative sont corrélées (cf. la proportion de la variance totale expliquée par le modèle)
      Le résultat obtenu est compris entre 0 et 1. Plus il est proche de 1 plus les données sont corrélées.



Interprétation de η² (cf la corrélation) :
 * si η² = 0 alors  absence de corrélation entre les variables X et Y 
 * plus η² est proche de 1, plus la corrélation entre les variables X et Y est importante


Haut de page    

1.1.3. Réalisation de l'ANOVA

Test de Fisher
■ Hypothèse nulle H0 : La moyenne des revenus des différents pays est égale
■ Hypothèse alternative H1 : Tous les pays n'ont pas la même moyenne des revenus

Seuil de signification retenu : $\alpha$ = 0.05 :
  • si $\alpha$ <= 0.05 : on rejette Ho au profit de l'alternative H1 : les revenus sont différents selon les pays
  • si $\alpha$ > 0.05 : on accepte H0 : les revenus sont les mêmes quelque soit le pays
La p_value est proche de 0 :
-> on ne peut donc pas accepter H0 :

=> le pays a donc une influence sur les montants de revenus

Performance du modèle

-> dans quelle mesure le modèle explique les variations de revenus observées ?

=> eta carré (η²) indique la part de la variance totale expliquée par notre variable pays

η² $\simeq$ 0.5

-> ainsi, la variable pays explique près de 50% de la variance du revenu
Haut de page    

1.1.4. Conditions d'application de l'ANOVA

Test de normalité

Test de normalité de Kolmogorov-Smirnov

Test d'homoscdédasticité

Le test de normalité des résidus n'étant pas concluant, nous allons utiliser le test de Levene pour tester la constance des variances

P_value = 0
=> on rejette l'hypothèse H0 d'homoscédasticité des variances

Haut de page    

1.2. Cadre d'analyse : le modèle logarithmique

1.2.1. Performance du modèle

En utilisant le logarithme des revenus, on constate que :

Haut de page    

1.2.2. Conditions d'application de l'ANOVA

Test de normalité

Test d'homoscdédasticité

P_value = 0
=> on rejette l'hypothèse H0 d'homoscédasticité des variances

Haut de page    

2. Régression linéaire avec 2 variables explicatives : le revenu moyen du pays et l'indice de Gini

2.1. Choix du modèle : linéaire ou logarithmique

Nous allons choisir le modèle plus performant, c'est-à-dire celui dont la variance expliquée est la plus importante :
-> celui dont le $R^2$ est le plus élevé

Equations des modèles

avec :

2.1.1. Modèle linéaire

Test global du modèle : Test de Fischer

La p_value du test de Fischer est égale à 0
==> le modèle est donc significatif, au moins un coefficient est non nul

Etude de la significativité des variables explicatives : Test de Student

On constate que le coef de détermination $R^2$ est égal à environ 0.5, ce qui correspond à la valeur du η² obtenu précédemment avec l'ANOVA à un facteur
   => résultat cohérent

On va effectuer une nouvelle régression linéaire, en utilisant les logarithmes

Haut de page    

2.1.2. Utilisation des logarithmes

Test global du modèle : Test de Fischer

La p_value du test de Fischer est égale à 0
==> le modèle est donc significatif, au moins un coefficient est non nul

Etude de la significativité des variables explicatives : Test de Student

Les p_value du test de Student pour les 2 variables explicatices "revenu moyen" et "indice de Gini" sont égales à 0 :
==> Les 2 variables sont donc significatives

Part de la variance expliquée par le modèle : coefficient de détermination R²

Le coefficient de détermination réprésente la part de la variation totale de y qui est expliquée par le modèle : $R^2 = \frac{SCE} {SCT}$



avec :

Ici, $R^2$ = 0.726, donc près de 73% de la variance totale est expliquée par le modèle de régression
=> On retient donc le modèle logarithmique pour la suite de l'analyse
Haut de page    

2.2. Analyses complémentaires : étude des valeurs atypiques et influentes

Déterminons les paramètres de départ

2.2.1. Détection des valeurs atypiques

a) Analyse de l'atypicité des observations sur les variables explicatives : le levier

Remarque :
Il est normal que le nombre de valeurs soit de 50000.
En effet, la notion de levier fait référence uniquement aux variables explicatives, la variable cible (ici les revenus), n'est pas prise en compte.
Or étant donné la structure de nos données, il n'y a qu'une valeur de levier par pays (car un seul revenu moyen et un seul indice de Gini par pays) : c'est donc 50000 fois la même valeur

Haut de page    

b) Analyse de l'atypicité des observations sur la variable à expliquer : le résidu studentisé

113 pays sur 115 ont des résidus standardisés supérieurs au seuil critique (en valeur absolue)
--> donc pour 2 pays, les erreurs du modèle sont en-dessous du seuil
---> déterminons quels sont ces pays

Haut de page    

c) Détection des valeurs influentes

Haut de page    

d) Synthèse de détection des outliers

==> On remarque que, en toute logique, les pays avec le plus d'outliers sont ceux où la répartition des revenus est la plus inégalitaire (cf. un indice de Gini élevé)
On peut également remarquer que seul un pays "riche" figure dans ce résultat, à savoir les Etats-Unis en dixième position (pays avec une répartion très inégale des revenus)

On peut confirmer cette relation en calculant la corrélation entre le nombre d'outliers et l'indice de Gini :

Haut de page    

e) Traitement des outliers

Comment traiter ces différentes valeurs ?
-> cela va dépendre de notre jeu de données et de nos objectifs

Ne dispoant pas d'informations concernant la répartition des clients par pays, nous allons réaliser une correction "automatique" :
-> on supprime les observations qui contiennent des valeurs atypes ET des valeurs influentes.

2 cas différents possibles :

=> En supprimant seulement 0.04% des valeurs initiales, la variance des revenus expliquée par le modèle passe de 73% à 80%.

Mais attention : les suppressions effectuées ici sont automatiques et donc non nécessairement judicieuses :
-> il faudrait sélectionner les suppressions (ou les remplacements des valeurs concernées par la moyenne ou la médiane ou autre) en fonction de données supplémentaires (ex : notre portefeuille client par pays)

Haut de page    

2.3. Vérification des hypothèses d'un modèle de régression linéaire

2.3.1. Modèle logarithmique avant traitement des outliers

Condition de linéarité : relation linéaire entre la varaible cible et les variables explicatives

Haut de page    

Absence de colinéarité entre les variables explicatives

Haut de page    

Normalité des distributions

Remarque :
La non normalité de nos variables explicatives est ici à relativiser étant donné la taille de notre échantillon (plus de 5 millions d'onservations).
En effet, le modèle de régression linéaire est un modèle robuste, et ce d'autant plus que la taille de l'échantillon est important :
-> plus l'échantillon est important, plus le modèle est capable de supporter des écarts importants vis à vis de la contrainte de normalité des résidus

Haut de page    

Homoscédasticité des résidus

Le test statistique rejette l'hypothèse d'homoscédasticité des résidus, mais graphiquement, on constate une répartition relativement homogène des résidus le long de l’axe représentant le logatithme des prédictions de revenus.
De plus, tout comme l'hypothèse de normalité des résidus, le modèle de régression linéaire est robuste avec des échantillons de taille importante (il est capable de supporter des écarts importants vis à vis de l'hypothèse de constance de la variance des résidus)

Haut de page    

2.3.2. Modèle logarithmique après traitement des outliers

Haut de page