Produisez une étude de marché

Table des matières

Paramètres config

Objet de la mission :

Réaliser un partitionnement des pays mondiaux afin de cibler les pays les plus favorables à satisfaire notre objectif d'internationalisation de la vente de nos produits "poulet"
Haut de page    

Partie 1 : Préparation des données

1. Dataframe minimal

1.1 Données alimentaires

On importe les données suivantes, pour tous les pays et pour la dernière année disponible (2018), depuis le site de la FAO :

On crée le df minimal, df_mini, c'est-à-dire celui qui comprend les 4 variables exigéees :

Remarque:
-> On ne s'occupe que des 3 dernières variables pour le moment, c'est-à-dire celles relatives à l'alimentation

Haut de page    

1.2 Données de population

On vérifie que la somme des populations nationales est cohérent avec les chiffres officiels de la population mondiale en 2018 (≈ 7.6 milliards)

On constate que la somme donne un résultat trop important

-> on vérifie que les données de la Chine ne sont pas en double

Les données de la population de la Chine apparaissent 2 fois
-> On supprime les données correspondant au code pays 351

On vérifie à nouveau

Le résultat est maintenant cohérent

Haut de page    

1.3 Merge des données

On peut maintenant merger les données relatives à l'alimentation et à la population

Haut de page    

2. Dataframe enrichi

2.1 Continent

Haut de page    

2.2 Le PIB / habitant

Methode : left depuis df_global
-> nous permettra de détecter la présence éventuelle de valeurs nulles

Haut de page    

2.3 le niveau de sécurité (sécurité financière)

Pas de valeurs nulles pour notre variable risque

Haut de page    

2.4 La quantité de volaille consommée

Haut de page    

2.5 La part des importations nettes dans la quantité consommée

Remarque :

Haut de page    

2.6 Le niveau d'imposition

Ces 7 pays ne fournissent pas d'information sur leur taux d'imposition
-> on les exclut de l'analyse (on crée un df spécifique pour ces pays)

Haut de page    

3. Export des données

Haut de page    

Partie 2 : Partitionnement

1. Classification hiérarchique

Haut de page    

1.1 Analyse des données

Analyse bivariée

L'analyse des variables 2 à 2 nous fournit plusieurs renseignements :

Haut de page    

Analyse de la distribution

La réprésentation graphique de la distribution et de la répartition de nos variables nous permet de valider nos données en constatant l'absence d'outliers notamment.

Haut de page    

1.2 Réalisation du dendrogramme

La part d'inertie en fonction du nombre de groupes

Grâce à la variance cumulée, on connait le pourcentage de l’inertie totale expliquée selon le nombre de groupes retenu.
On utilise alors la méthode "du coude" (Elbow method) : on choisit le coude de la courbe comme le nombre de groupes à constituer ; ici, c'est bien à partir de 5 groupes que l'augmentation marginale de la variance cumulée diminue.

Score Silhouette

Pour avoir une donnée chiffrée, on peut utiliser le score de silhouette :
--> c'est une mesure de similarité entre un point et les autres points du cluster par rapport aux autres clusters
(plus il est élevé, plus la qualité de la partition est importante)

On peut également représenter cette mesure graphiquement, en fonction du nombre de groupes, comme présenté ici.
On constate que la qualité semble optimale pour 5 ou 6 groupes

Haut de page    

1.3 Détermination et visualisation des clusters

Haut de page    

2. Analyse des groupes obtenus

2.1 Analyse des variables 2 à 2

Analyse des 4 variables actives

On constate que :

Le groupe 3 semble avoir une inertie intraclasse relativement importante, en particulier quand on compare la variable évolution de la population avec les autres variables

Analyse avec des variables complémentaires

On se rend compte de la difficulté de lire un tel graphique
--> avec un tel nombre de variables, il est difficile d'établir des liens et de trouver une logique globale (d'où l'intérêt de trouver une autre méthode)

Haut de page    

2.2 Caractérisation de la partition

On constate ainsi que la formation des groupes s'est appuyée avant tout sur la disponbilité alimentaire, tant en protéine (81.3% de sa dispersion est attribuable à l'appartenance aux groupes) qu'en kcal (76%).
Elle repose dans une moindre mesure sur la proportion de protéines animales (65.8%) et sur la croissance démographique (67%).

En incluant les variables illustratives dans notre analyse, on constate que :

==> N'a-ton pas intérêt à refaire une CHA en incluant ces variables dans la création de nos groupes ?
(dans la mesure où notre objectif est de trouver un nouveau marché extérieur pour vendre nos produits "poulets", n'est-ce pas dommageable que la variable `quantité de volaille consommée` ne corresponde pas du tout à notre partition ?)
voir résultat de l'ACP correpondante dans la partie "suppléments"
Haut de page    

2.3 Caractérisation des groupes

Analyse des centroïdes

Haut de page    

Comparaison des moyennes - Valeur Test

On peut alors calculer la valeur centrée suivante, à savoir la valeur-test :
avec $ \scriptstyle \sigma^2 $ : la variance empirique de la population
$$ \scriptstyle vt = \displaystyle \frac{\bar x_g - \bar x}{\sqrt[]{\frac{n-n_g}{n-1}\frac{\sigma^2}{n_g}}} $$

On va réaliser le test suivant :

Hypothèse HO : Les valeurs observées de la variable $X$ au sein du groupe $q$ sont seulement liées au hasard
La loi de $\bar X_q$ suit une loi normale réduite (espérance mathématique nulle - $\mu$=0 - et écart-type de 1 - $\sigma^2$=1)
--> Probabilité de 95% que la valeur soit comprise entre -1,96 et 1,96
<=> si |valeur-test| <= 1.96, alors la variable X ne caractérise pas la classe $q$

contre Hypothèse H1 : Les valeurs observées de la variable $X$ au sein du groupe $q$ sont significativement différentes de celles observées au sein de la population
<=> si |valeur-test| > 1.96, alors la variable X caractérise la classe $q$ (et d'autant plus que cette valeur est importante)

Illustration graphique

On représente le profil de chaque groupe grâce à un graphique de type radar, en utilisant les valeurs-test pour caractériser ces groupes

Synthèse

Caractérisation des groupes

Ainsi, on trouve la même caractérisation qu'avec l'étude des centroïdes, mais de façon plus approfondie :
   On va ainsi pouvoir affiner notre sélection :

      ==> seuls les pays du groupe 4 sont désormais des candidats potentiels
Haut de page    

3. Choix des pays

Notre objectif étant de trouver un nouveau marché international pour vendre nos produits, la taille du marché ne doit pas être trop étroite

Ainsi, on commence par supprimer les pays dont la population est inférieure à 1 million d'habitants

3.1 Notation des pays

Méthode pour attribuer la note "brute"

METHODOLOGIE :

* on crée une liste "note" allant de 1 à 27 (car 27 pays)
* pour chaque variable :
   - on va trier les valeurs de notre échantillon (par ordre décroissant pour 'taux d'imposition', par ordre croissant pour les autres)
   - on crée un dictionnaire avec pour clé les valeurs des variables et pour valeur la note correspondante
   - on applique le dictionnaire sur la variable et le résultat est conservé dans une nouvelle colonne 'note de la variable' dans notre df

* Cas particulier de la variable 'risque'
   - on va créer un dictionnaire spécifique en faisant en sorte que les notes obtenues soient du même ordre que pour les autres variables

Calcul des notes

Haut de page    

3.2 Résultats

Haut de page    

2. ACP

2.1 Visualisation de l'ACP

Haut de page    

2.2 Analyse de l'ACP

Qualité de représentation des variables

Haut de page    

Caractérisation des axes

Analyse graphique :

En effet, la projection sur l'axe factoriel de l'extrémité de la flèche représentant une variable correspond au coefficient de corrélation entre la variable et l'axe factoriel

De plus, pour les variables bien représentées (comme c'est le cas ici), l'angle entre deux variables est lié au coefficient de corrélation entre ces 2 variables (plus précisément, le cosinus de cet angle correspond au coefficient de corrélation)
--> on constate que la disponibilité alimentaire en kcal et la disponibilité alimentaire en protéines ont une corrélation proche de 1
Remarque : cela confirme ce que nous avons trouvé précédemment lors de l'analyse des corrélations des variables 2 à 2 (les disponibilités alimentaires, tant en calories qu'en protéines, suivent la même évolution)

    * la 4e variable active, relative à la croissance démographique, est corrélée négativement à l'axe 1

On peut ainsi caractériser nos axes de la façon suivante :

    * L'axe 1 peut se définir comme le niveau de la disponibilité alimentaire et de l'importance relative des protéines d'origine animale.
    * L'axe 2 rend compte de l'importance de la croissance démographique
Confirmation analytique :

On peut confirmer l'analyse graphique par une analyse analytique

Haut de page    

Analyse des individus

remarque : L'Islande n'avait pas été prise en compte précédemment en raison de sa trop faible population (moins de 1 million d'habitants)

Haut de page    

Partie 3 : Tests statistiques

Nous allons donc effectuer des tests de comparaison entre différents groupes.
Or ces tests supposent que la variable suive une loi normale :
--> c'est pourquoi nous allons commencer par tester la normalité de la distribution de nos variables

1. Test de normalité

1.1 Approche graphique

Distribution des variables

Boxplot

Les différents tests de normalité sont très sensibles aux valeurs aberrantes.
On va visualiser nos variables avec des box-plot pour les déceler

On constate qu'il n'y a qu'un seul outlier

Q-Q Plot

Le Q-Q plot, quantile-quantile plot, est un graphique qui permet de comparer les distributions de deux ensembles de données.
--> un de ces deux ensembles peut être généré à partir d'une loi de probabilité qui sert de référentiel.
----> on va ici choisir la loi normale comme référence

Ainsi, si les données suivent une loi normale, les points obtenus forment une droite, ils sont alignés sur la diagonale principale

Graphiquement, nos 4 variables semblent suivre approximativement une loi normale :

Cette analyse graphique permet de se se faire une première idée sur la distribution de nos variables, mais cela reste trop approximatif et subjectif
   --> intérêt de réaliser des tests statistiques

Haut de page    

1.2 Tests statistiques

Principe identique pour tous les tests

Hypothèse nulle H0 :               "La variable dont provient notre échantillon suit une loi normale"
Hypothèse alternative H1 :     "La variable dont provient notre échantillon ne suit pas une loi normale"

si $p$ <= $\alpha$ :  on rejette H0 au profit de l'alternative H1     =>     on rejette l'hypothèse de normalité
si $p$ > $\alpha$ :    on ne peut pas rejeter H0                            =>     on accepte l'hypothèse de normalité
Haut de page    

Présentation des tests

Test de Kolmogorov-Smirnov
Test de Lilliefors
Test de Shapiro-Wilk
Test de Anderson-Darling
Test de D'Agostino
Haut de page    

Réalisation des tests

On vérifie que les moyennes sont bien égales à 0 et les écarts-types à 1

Les tests confirment l'analyse graphique :
--> la variable disponibilité alimentaire en kcal est la plus compatible avec une distribution gaussienne
--> c'est donc cette variable que l'on va choisir pour réaliser les tests de comparaison entre les clusters

Haut de page    

2 Test de comparaison dans le cas gaussien

2.1 Choix des clusters

Pour rappel, nous avons chosi les pays du cluster 4 comme marchés potentiels d'exportation.
--> On a donc intérêt à savoir si ce cluster 4 est bien spécifique, c'est-à-dire s'il se différencie bien des autres clusters.

Ainsi, nous allons comparer le groupe 4 à chacun des autres groupes

Haut de page    

2.2 Vérification de la normalité des clusters sélectionnés

On vérifie que nos 5 échantillons suivent une loi gaussienne

Haut de page    

2.3 Approche graphique

Haut de page    

2.4 Tests statistiques - Méthodologie

Remarque :
  Si le test d'égalité des variances conduit à rejetter H0, on pourra malgré tout réaliser un test d'égalité des moyennes.
En effet, le test qui sera utilisé pour vérifier l'égalité des moyennes est le ttest_ind du module SciPy (cf. le test T), qui a pour paramètre optionnel 'equal_var' :

Haut de page    

2.5 Test d'égalité des variances

Test de Bartlett

Hypothèse nulle H0 :       "Les variances des 2 clusters sont égales"
   -> On peut effectuer un test d'égalité des moyennes pour comparer leur loi de distribution

Hypoyhèse alternative H1 : "Les variances des 2 clusters ne sont pas égales"
   -> Ils ne suivent donc pas la même loi de distribution

      si $p$ <= $\alpha$ : on rejette H0 au profit de l'alternative H1=> on rejette l'hypothèse d'égalité des variances
      si $p$ > $\alpha$ : on ne peut pas rejeter H0 => on valide l'hypothèse d'égalité des variances
Haut de page    

Test F

Pour confirmer ce résultat, on peut également effectuer un test du F (de Fisher-Snedecor)

$\displaystyle \mathit{F_{ctr}} = \frac{\sigma_1^2}{\sigma_2^2}$   (Valeur F critique = rapport des 2 variances - la plus élevée étant au numérateur)

$\mathit{df} = \mathit{n_s} -1$    (le degré de liberté = taille de l'échantillon - 1)

==> les résultats sont identiques à ceux obtenus avec le test de Bartlett

Haut de page    

2.6 Test d'égalité des moyennes

Test T de Student

Hypothèse nulle H0 :          "Les moyennes des 2 clusters sont égales"
   -> Nos 2 clusters ne sont donc pas significativement différents

Hypoyhèse alternative H1 :    "Les moyennes des 2 clusters ne sont pas égales"
   -> Nos 2 clusters sont donc significativement différents

      si $p$ <= $\alpha$ : on rejette H0 au profit de l'alternative H1=> on rejette l'hypothèse d'égalité des moyennes
      si $p$ > $\alpha$ : on ne peut pas rejeter H0 => on valide l'hypothèse d'égalité des moyennes

On en conclue que pour la variable "disponibilité alimentaire en kcal", le groupe des pays candidats retenu en tant que marché d'exportation possible est bien différent des autres groupes.

Haut de page    

Partie 4 : Compléments

1. Export des données

1.1 export des clusters

Haut de page    

1.2 export des coordonnées des centroides

Haut de page    

2. ACP avec d'autres variables actives

Lors de l'analyse des variables qui caractérisent nos groupes, nous avions noté que la quantité de volaille consommée dans chacun des pays n'intervenait quasiment pas.

Nous allons donc, au vu des résultats que nous avons obtenus, refaire une ACP avec les variables actives suivantes :
'dispo_kcal', 'part_prot_anim', 'pib_hab', 'qte_volaille', 'vol_part_import', 'evol_pop'

On constate que les résultats ne sont pas très différents du partitionnement précédent

Haut de page    

3. Graphique radar - analyse des centroïdes