Projet 7 - Effectuez une prédiction de revenus

▪ Mission 4.2. : Régression linéaire à 3 variables explicatives

Table des matières

paramètres

1. Préparation des données

Haut de page    

2. Choix du modèle

Equations des modèles

avec :

Haut de page    

2.1 Modèle linéaire

=> comme pour la régression précédente avec 2 variables explicatives, la variable indice de Gini n'est pas significative
Le modèle explique 53% de la variance totale des revenus

On va effectuer une nouvelle régression linéaire, en utilisant les logarithmes

2.2 Modèle logarithmique

Toutes les variables explicatives sont significatives et ce modèle explique près de 78% de la variance totale

=> On retient donc le modèle logarithmique pour la suite de l'analyse
Haut de page    

3. Test des hypothèses d'application du modèle de régression

Haut de page    

4. Détermination des valeurs atypiques et influentes

Haut de page    

5. Amélioration du modèle

Nous allons traiter les valeurs atypiques et influentes détectées

=> En supprimant seulement 0.04% des valeurs initiales, la variance des revenus expliquée par le modèle passe de 77.70% à 84%.

Mais attention : les suppressions effectuées ici sont automatiques et donc non nécessairement judicieuses :
--> il faudrait sélectionner les suppressions (ou les remplacements des valeurs concernées par la moyenne ou la médiane ou autre) en fonction de données supplémentaires (ex : notre portefeuille client par pays)

Haut de page    

6. Analyse des coefficients

Interprétation du coefficient $\beta_1$

INTERPRETATION DE β1
  • Modèle niveau-niveau :  si X1 augmente de 1 unité, alors y varie de β1 unités
  • Modèle log-log             :  si X1 augmente de 1%, alors y varie de β1%
  • Modèle log-niveau        :  si X1 augmente de 1 unité, alors y varie de (β1*100)%
  • Modèle niveau-log        :  si X1 augmente de 1%, alors y varie de (β1/100) unités

Concernant notre modèle, nous avons donc :

$$\text{log(y_child)}_j\: = \: -0.0995\: +\: 0.9861\, \text{log(y_child_avg)}_j\: -\: 1.6355\, \text{gini}_j\: +\: 0.0112\, \text{c_i_parent}_j\: +\: \epsilon_j$$

avec :

Ainsi, toutes choses égales par ailleurs, vivre dans un pays avec un indice de gini plus élevé de 0,1 se traduit par des revenus diminués de 16.35%.

Haut de page    

7. Synthèse

Haut de page    

Supplément : la courbe de Gatsby le Magnifique

==> cela se traduit par une corrélation positive entre l'indice de Gini d'un pays et son taux de mobilité intergénérationnelle.

Le modèle était le suivant :

Représentons la droite de régression correspondante
(nous ne retenons que les pays pour lesquels on dispose des véritables valeurs d'élasticité et non pas les valeurs ajustées selon la région mondiale)

Avec les données de notre modèle, l'indice de Gini explique 38% de la variation de l'indice de mobilité intergénérationnelle

Haut de page