Analysez les ventes de votre entreprise

Table des matières

Paramètres config

Haut de page    

Import des données

Mission 2 : Analyse des données

1. Etude de l'offre : produits et CA

1.1 Analyse des produits proposés

1.1.1 Données générales


Nombre Part Prix Moyen
Categorie 0 2309 70.25% 11.73€
Categorie 1 739 22.5% 25.53€
Categorie 2 239 7.25% 108.35€
Total 3287 100% 21.86€




Nb de références Prix Moyen
Catégorie 0 17 20.080
Catégorie 1 2 35.775
Catégorie 2 3 141.320
Haut de page    

1.1.2 Répartition des prix

1.1.2.1 Mesures de tendance centrale
1.1.2.1 Mesures de dispersion

Prix des produits par catégorie

Mode Médiane Moyenne
Catégorie 0 4.99 10.32 11.73
Catégorie 1 22.99 22.99 25.53
Catégorie 2 50.99 101.99 108.35
Total 4.99 13.07 21.86


Haut de page    

1.2 Evolution du CA global

Haut de page    

1.3 Analyse des ventes pour le mois d'octobre 2021

1.3.1 Constat : forte baisse du CA

=> On constate que cette forte baisse du CA se produit durant 3 semaines, de la semaine 40 à la semaine 42

Haut de page    

1.3.2 Analyse par catégories

On va affiner davantage en analysant l'évolution du CA quotidien pour voir si l'absence de données sur la vente de produits de catégorie 1 se limite à ces 3 semaines

On zoom sur la période où le CA chute

On détermine précisément les jours où se produit cette chute en listant les jours où les ventes de produits de catégorie 1 sont nulles

Ainsi, aucun article de la catégorie 1 ne semble avoir été vendu durant preque tout le mois d'octobre 2021.


L'hypothèse la plus probable, au vu du volume de vente des autres semaines, est un problème d'enregistrement ou de récupération des données (et non pas d'absence des ventes) :
-> les ventes réalisées au cours de cette période n'ont pas été enregistrées dans la base de données ou elles ne sont pas accessibles (peut-être un problème durant l'extraction des données)

On va procéder en 2 temps :

Haut de page    

1.3.3 Estimation des données manquantes

On représente graphiquement l'évolution du CA en prenant en compte cette estimation

Haut de page    

1.3.4 Suppression du mois d'octobre dans le df global

Haut de page    

1.4 Analyse du CA par catégories de produits

1.4.1 Répartition du CA par catégories

Haut de page    

1.4.2 Evolution du CA par catégories

Haut de page    

1.5 Les "meilleurs" produits

1.5.1 Produits les plus vendus, en volume et en valeur, pour tous les clients

Haut de page    

1.5.2 Les meilleurs produits, en volume et en valeur, en fonction du sexe

Haut de page    

2 Etude de la demande : clients et achats

2.1 Données générales


Pas de différence notable

Haut de page    

2.2 Analyse des achats

2.2.1 Création des df clients

2.2.2 Total des achats au cours de l'année

2.2.2.1 Les achats en fonction du prix de vente
2.2.2.2 Les clients 'premiums'

On constate que le CA annuel par client est de 637€ mais qu'il existe de fortes disparités :
-> le plus gros client génère à lui tout seul un CA de plus de 15000€.

On trie de façon décroissante le CA par client

On constate 4 clients 'premiums'

On vérifie que ce sont de 'vrais' clients
-> on regarde la distribution de leurs achats

On constate que les achats de ces 4 clients sont bien répartis tout au long de l'année
-> il s'agit de véritables clients

Au vu de leur volume d'achat très important, on peut penser qu'il s'agit de professionnels


2.2.2.3 Analyse de la concentration du CA
1. Le CA en fonction des clients

On peut constater que :

On constate que les différences ne sont pas très importantes :

Remarque : concernant les produits de catégorie 2, on constate que plus de 60% des clients n'en n'ont pas achetés durant la période étudiée

2. Le CA en fonction des produits

20% des produits sont responsables de 74% du nombre de produits vendus

20% des produits génèrent près de 80% du CA

2.2.2 Répartition des achats au cours de l'année

Les ventes sont réparties de manière homogène sur l'ensemble de la journée

Les ventes sont également réparties de manière homogène sur la semaine

Haut de page    

2.3 Le panier moyen

2.3.1 Données générales

On constate de nombreux outliers, ce qui laisse penser que la distribution est très étirée
Mais cela est surtout lié au nombres important de valeurs (147 046 commandes de clients particuliers, 157 648 en ajoutant les 4 clients professionnels)

On constate une stabilité du montant du panier moyen dans le temps :

Composition du panier moyen

2.3.2 Relation entre âge des clients et le montant du panier moyen

2.3.2.1 Base clients : panier moyen des clients

On va limiter les données aux seuls particuliers (on exclut les professionnels de l'analyse
Justification : le coefficient de corrélation est un indicateur peu robuste, très sensible aux valeurs aberrantes

Interprétation :
    Si le coefficient est proche de 0 : les 2 variables sont linéairement indépendantes
    Plus le coefficient est proche de -1 ou 1, plus la liaison linéaire entre les 2 variables est importante

Le coefficient de Pearson révèle l'existence d'une corrélation entre l'âge des clients et le montant de leur panier moyen :

-> plus les clients sont âgés, moins le montant de leur panier moyen est important

2.3.2.2 Base globale : panier moyen de session
Haut de page    

2.3.3 Relation entre la classe d'âge des clients et le montant du panier

2.3.3.1 Base clients (panier moyen des clients)

Analyse de la corrélation : calcul du eta_squared

Objectif : comparer les moyennes de trois groupes ou plus, créés par une variable catégorielle

Hypothèse nulle H0 : La moyenne des différents groupes est égale
Hypothèse alternative H1 : Au moins un groupe possède une moyenne différente
  • Le test d'ANOVA (analyse de la variance) :
    • Test F qui permet de savoir si nos résultats sont significatifs, et donc si on peut rejet l'hypothèse nulle H0 au profit de l'hypothèse alternative H1
    • calcul de eta² (η²) afin de savoir si notre variable qualitative et notre variable quantitative sont corrélées (cf. la proportion de la variance > totale expliquée par le modèle)
      Le résultat obtenu est compris entre 0 et 1. Plus il est proche de 1 plus les données sont corrélées.


Interprétation de η² (cf la corrélation:
 * si η² = 0 alors  absence de corrélation entre les variables X et Y 
 * plus η² est proche de 1, plus la corrélation entre les variables X et Y est importante

Interprétation de η (cf la taille de l'effet) :
 * autour de η ≈ 0.10  => effet de petite taille (small effect size)
 * autour de η ≈ 0.30  => effet de taille moyenne (medium effect size)
 * autour de η ≈ 0.50  => effet de grande taille (large effect size)


Hypothèse nulle HO : La moyenne du montant du panier moyen des 3 groupes d'age est égale

contre hypothèse alternative H1 : Au moins un groupe d'âge possède une moyenne du panier moyen différente 

seuil de signification : 5%

Donc ici on a :

Si la p-value est inférieure à 0,05, nous rejetons l'hypothèse nulle en faveur de l'alternative :
  -> cela signifie qu'au moins une moyenne de groupe est significativement différente.

Nous calculons la valeur P en utilisant la distribution F avec les degrés de liberté ddl1 et ddl2, dans notre cas une distribution F(2, 8591).

En utilisant le calcul de probabilité, nous trouvons la valeur P comme suit :

2.3.3.2 Base globale (panier moyen de session)
Haut de page    

2.4 La fréquence d'achat (en terme de commandes par client)

2.4.1 Relation entre l'âge des clients et la fréquence d'achat

res['ind2'] = res['c_age']//10 res['ind2'] = res['ind2'].astype(int) sorted(res[res['ind2'] == 4]['c_age'].unique())


2.4.1 Relation entre classes d'âge des clients et la fréquence d'achat

Remarque :
Il n'était pas nécessaire ici de réaliser un test F car nous n'avons que 2 goupes, un test T aurait suffit

Haut de page    

Mission 3 : Demandes spécifiques

1 Etude de la corrélation entre le sexe des clients et les catégories de produits achetés

  1. On réalise le tableau de contingence (cf. les données observées)
  1. On réalise le tableau des effectifs théoriques (cf. le tableau d'indépendance)

    • Ce tableau représente une distribution équiprobable c'est à dire la distribution pour laquelle il n'y a aucun lien statistique entre les deux variables

    • On calcule l'effectif théorique de chaque case du tableau en multipliant les totaux qui lui correspondent et en divisant par l'effectif total.

  1. On va comparer les 2 tableaux

    • On va soustraire termes à termes, pour chaque case, les valeurs des 2 tableaux (Tab de contingence - Tab d'indépendance) dans un nouveau tableau

L'indicateur du khi-2 est le total de ce tableau soit 8.965633.


On peut donc affirmer, avec moins de 2,5 % d'erreur, qu'il existe ici un lien entre le sexe des clients et les catégories qu'ils achètent.

v_cramer

On peut se référer au tableau ci-dessous pour interprêter le V de Cramer (source: site de l’université de Montreal)

Ici nous avons :

On a donc V² = 8.965633/(293608 * (2 - 1))

On constate que V est proche de 0
-> les variable 'sexe' et 'catégories' sont donc très faiblement corrélées

Comme le test de Cramer indique que nos variables se rapprochent de l'indépendance, on peut se demander s'il existe une une autre variable qui pourrait expliquer ce lien a priori.

Haut de page    

2 Etude de la corrélation entre l'âge des clients et diverses variables :

2.1 Le montant total des achats

2.1.1 Relation entre âge des clients et montant total des achats

2.1.2 Relation entre classe d'âge des clients et montant total des achats

On constate qu'il semble y avoir 3 groupes d'âges différents sur les boxplot précédents
--> on va répartir les clients en 3 groupes et regarder à nouveau l'analyse de la variance

Haut de page    

2.2 La fréquence d’achat

2.2.1 Relation entre âge des clients et la fréquence d'achat

Remarque : on va s'intéresser à 2 fréquences d'achats :

2.2.1.1 Fréquence des commandes

Les coef de Pearson sont relativement proches de 0
-> Pas de corrélation entre l'âge et la fréquence de commandes pour aucun des 2 groupes d'âges

2.2.1.2 Fréquence des produits

Les coef de Pearson sont très proches de 0
-> Pas de corrélation entre l'âge et la fréquence de commandes pour aucun des 3 groupes d'âges

2.2.2 Relation entre classes d'âges des clients et la fréquence d'achat

Haut de page    

2.3 La taille du panier moyen (en nombre d'articles)


2.3.1 Relation entre âge des clients et la taille du panier moyen

2.3.1.1 Base clients : panier moyen des clients
2.3.1.2 Base globale : panier moyen de session
2.3.1.3 Détermination de 3 groupes d'âges aux profils différents

On va pour cela agréger nos données par âge en utilisant la moyenne comme fonction d'agrégation.

Puis on va regarder graphiquement si des groupes distincts apparaissent

Haut de page    

2.3.2 Relation entre la classe d'âge des clients et le montant du panier

Les coefficients sont proches de 0 : donc pas de corrélations

-> on a vu graphiquement que la droite de régression de chaque groupe ressemble davantage à une droite parrallèle à l'axe des abscisses
-> donc quelque soit la valeur de X, Y aura la même valeur (les variables X et Y ne sont pas indépendantes mais il n'y a pas de corrélation entre elles)

Haut de page    

2.4 Les catégories de produits achetés

2.4.1 Relation entre âge des clients et catégorie de produits achetés

Haut de page    

2.4.2 Relation entre classe d'âges des clients et catégories de produits achetés

Ici nous avons :

Khi-2 = 80058.50215280065
Effectif total : 188154
la plus petite dimension : 3

On a donc V² = 80058.50215280065/(293608 * (3 - 1))

Haut de page