Data Science pour le Marketing : Segmentation Clients (3/4)

Miljan Stojiljkovic
15 min readMar 26, 2021
Segmentation clients

J’ai décidé de rédiger une série d’articles sur le déroulement étape par étape d’un projet de segmentation clients en Data Science.

Dans les deux précédents articles, j’ai donc réalisé une analyse exploratoire des données de ventes d’un site de e-commerce britannique ainsi que le nettoyage des données et enfin la création de catégories produits à partir des descriptions produits.

Dans cet article, je vais m’attaquer à la création de champs personnalisés définissant les clients ainsi que l’application du principe de RFM (Récence, Fréquence et Valeur monétaire). Pour terminer, je vais créer les différents segments clients pour cette entreprise de e-commerce (VIP, les clients perdus, …). Enfin, je vous présenterais la fiche client finale que l’on pourra créer à partir donc d’une simple facture.

Pour rappel, les différentes étapes du projet de segmentation clients sont les suivantes :

  • Analyse exploratoire
  • Nettoyage des données
  • Taggage des produits (Création de catégories de produits)
  • Création de champs personnalisés (Feature Engineering)
  • Création des segments clients
  • Entrainement d’un modèle de Machine Learning
  • Développement d’un Dashboard

Il nous restera donc un dernier article dans lequel je vous partagerai le Dashboard que j’ai développé en utilisant le Framework Dash de Plotly.

🎯Étape 4 : Création de champs personnalisés

1- Application du principe du RFM

Pour commencer, nous allons donc rassembler les données par facture (pour l’instant chaque ligne représentait un produit parmi la facture) pour obtenir le tableau qui suit :

Nous avons ici quatre types d’informations :

  • La date de la facture
  • Le code client
  • Le prix total de la facture
  • Le nombre de jours entre la dernière facture de la base (10 décembre 2011) et la facture en question

On agrège maintenant à nouveau ces données pour obtenir un tableau par client comme suit :

On a dorénavant toutes les valeurs décrivant notre client :

  • min_recency correspond au nombre de jours depuis la dernière commande passée par le client
  • max_recency correspond au nombre de jours depuis la 1ère commande passée par le client
  • frequency correspond au nombre total de commandes du client
  • monetary_value correspond à la somme totale dépensée par le client

Étudions maintenant la distribution de ces valeurs pour déterminer un système de scoring convenant à notre cas.

1- Fréquence

Distribution des fréquences d’achat

Tout d’abord, je vais vous expliquer la représentation des lignes verticales :

  • Q1 : 1er quartile, plus de 25 % des clients ont donc passé moins de deux commandes.
  • Médiane : 50% des clients ont commandé plus de 3 fois et 50% des clients ont commandé moins de 3 fois.
  • Moyenne de 6 : la moyenne est 2 fois plus grande que la médiane, ce qui s’explique par des clients qui ont commandé énormément de fois, ce qui augmente la moyenne. En effet, le client qui a commandé le plus a 373 commandes à son actif.
  • Q3 : 3ème quartile, ce qui veut dire que 25% des clients ont commandé plus de 7 fois.
  • Q90: 10% des clients ont commandé plus de 13 fois

Je tiens à préciser que le graphique en question est une version zoomée car nous avons une distribution des fréquences qui va jusqu’à 373.

Ces éléments vont me permettre de créer maintenant une échelle de scoring allant de 1 pour la meilleure note à 4 pour la moins bonne.

  • Score de 1 : Plus de 13 commandes
  • Score de 2 : De 7 à 13 commandes
  • Score de 3 : De 3 à 6 commandes
  • Score de 4 : Moins de 3 commandes

2- Valeur monétaire

Valeur monétaire
  • Q1 : 25 % des clients ont une valeur monétaire inférieure à 400€
  • Médiane : 50% des clients ont une valeur monétaire inférieure à 900€.
  • La moyenne est de 2575€
  • Q3 : 25% des clients ont une valeur monétaire supérieure à 2100€.
  • Q90: 10% des clients ont une valeur monétaire supérieure à 5100€
  • Valeur maximale : 483 455€ (Le client parfait)

De la même manière, je vais établir les règles de scoring suivantes :

  • Score de 1 : Plus de 5100€
  • Score de 2 : De 2100€ à 5100€
  • Score de 3 : De 600€ à 2100€
  • Score de 4 : Moins 600€

3- Récence

Récence

Cette fois, on doit réfléchir à l’inverse car plus la récence est petite et mieux c’est pour le business. En effet, un client qui n’a pas commandé depuis longtemps n’est pas un client fidèle.

  • Q3 : 25 % des clients ont commandé il y a moins de 25 jours
  • Médiane : 50% des clients ont commandé il y a moins de 95 jours
  • La moyenne est de 199 jours
  • Q1 : 25% des clients ont commandé il y a plus de 400 jours.
  • Valeur maximale : 739 jours

La logique des quartiles est ici assez bonne en terme de distribution et de valeurs, je vais donc m’en approcher au plus près.

  • Score de 1 : Moins de 30 jours
  • Score de 2 : De 30 à 90 jours
  • Score de 3 : De 90 jours à 365 jours
  • Score de 4 : Plus de 365 jours

Il est très important que cette étape soit réalisée de manière collégiale avec les équipes concernées car ce scoring dépend essentiellement de la conception d’un bon client pour le marketing et la communication ce qui peut varier d’une entreprise à l’autre.

4- Ancienneté

Ancienneté

Un autre élément qu’on ne considère pas assez à mon goût est l’ancienneté. On passe souvent à côté et c’est un des éléments qui agace le plus les clients. Une des plaintes récurrentes est le manque de reconnaissance envers la fidélité des clients. Certaines entreprises ne le prennent pas en compte car tout d’abord il ne le traque même pas. Ici, on peut voir que l’ancienneté s’arrête à un peu plus de 700 jours car nos données s’arrête là. L’idéal serait d’avoir les factures depuis la création de l’entreprise mais personne ne collecte de données à partir du jour 1. Je vais donc ici à nouveau créer un système de scoring de l’ancienneté en fonction de la distribution de cette dernière sur le graphique précédent. Nous allons cependant considérer l’ancienneté en dehors du score RFM mais nous allons tout de même la garder dans notre fiche client finale.

  • Score de 1 : Plus de 650 jours
  • Score de 2 : Entre 300 et 650 jours
  • Score de 3 : De 60 à 300 jours
  • Score de 4 : Moins de 60 jours

Ce score nous permet aussi d’identifier facilement les nouveaux clients, ce qui est une information essentielle pour les on-boarding et les cadeaux de bienvenue. Je pense cependant qu’il faut récompenser l’ancienneté en faisant des campagnes spécifiques du type “Date anniversaire”, qui serait spécifique à la date de la 1ère commande du client. Je suis convaincu que cette action donnerait un énorme coup de boost à l’image de marque de l’entreprise.

Nous allons davantage développer le principe RFM plus tard dans l’article. En effet, j’aimerais avant cela présenter les autres informations que l’on peut tirer des clients.

2- Les champs de type temporelle

À partir de la date de la facture, je vais pouvoir extraire de nombreuses informations : l’heure d’achat, le jour du mois, le jour de la semaine et enfin le mois. Ces informations peuvent être pertinentes pour connaitre les préférences d’achats des clients et pour savoir quel serait le meilleur moment pour lancer une campagne marketing spécifique.

Pour l’instant, je vais me contenter d’étudier les habitudes d’achat au global tout en gardant l’information pour chacun des clients que je décrirais en fin d’article avec la “Fiche Client”.

Distribution des ventes dans l’année

On fait ici la même observation qu’on a pu faire dans l’exploration des données. En effet, les ventes se concentrent sur la fin d’année avec un pic au mois de novembre ce qui est tout à fait normal en ayant à l’esprit qu’il y a beaucoup de produits de décorations de Noël en vente. Je dois cependant avouer que le mois de décembre devrait donc être le plus important mais ceci peut peut-être s’expliquer par la période de vacances des employés.

Distribution des ventes dans un mois

Ce graphique me fait me poser beaucoup de questions sur le système de facturation de cette entreprise qui ne facture pas du tout certains jours du mois. Cependant, dans un projet plus “normal”, on y verrait des pics de ventes à certains moments du mois qui seraient intéressants à mettre en corrélation avec de possible lancements de produits ou lancements de campagnes marketing à des jours précis.

Distribution des ventes dans une semaine

On observe encore ici un étrange phénomène de facturation qui nous indique qu’il n’y a quasiment pas de factures le samedi mais que pour dimanche les valeurs sont assez proches des autres jours tout en étant le jour le plus bas sans compter le samedi.

Distribution des ventes dans une journée

La distribution est ici assez intéressante et plutôt normale comparée aux autres graphiques. En effet, les commandes s’effectuent le plus de midi à 14h correspondant probablement à la pause déjeuner. C’est une information assez intéressante car il serait utile pour l’entreprise britannique de tenter des offres flash limitées de midi à 14h pour peut-être booster les ventes encore plus sur cette période. Pour vérifier l’efficacité de cette offre, il faudrait corréler ces valeurs au taux de rebond du site web en question pour avoir toutes les informations. En effet, si nous arrivons à réduire le taux de rebond sur cette période de temps tout en augmentant les ventes, le pari serait remporté !

On ne sait jamais ce que l’on va obtenir avant de regarder les graphiques, c’est pour cela qu’il est très important de visualiser les choses ce qui va permettre d’activer la créativité du marketeur. Ce genre d’informations est assez difficile à déchiffrer en ayant uniquement des tableaux Excel.

Avec ces données temporelles, je pourrais dans un deuxième temps définir les habitudes d’achat des clients tels que : le jour du mois où il fait le plus d’achat, le jour de la semaine où il fait le plus d’achat ou alors l’heure de la journée. Ces éléments-là ne sont pas fondamentales mais pour aller dans l’ultra personnalisation des campagnes marketing c’est une habitude qu’il faut prendre dès maintenant.

3- Préférences produits

En prenant pour exemple notre meilleur client (celui qui a dépensé le plus), je construis de nouvelles variables pour connaitre sa répartition d’achat à travers les différentes catégories produits que nous avons construites dans l’article précédent. C’est un client qui a beaucoup dépensé au cours des années, plus de 483 455 livres pour être précis. Il a une assez bonne répartition parmi les différentes catégories. D’autres clients auront des dépenses plus extrêmes, en dépensant majoritairement dans une ou deux catégories. C’est une information qui reste intéressante à connaitre pour mieux comprendre nos clients et toujours plus personnaliser les campagnes marketing.

On peut aller encore plus loin en regardant quel est son produit préféré. Il a par exemple dépensé plus de 11 000 livres dans le produit “ROUND SNACK BOXES SET OF 4 WOODLAND” qui n’est autre que le produit suivant :

On peut se demander comment on peut bien dépenser 11 000 livres dans ce produit mais c’est peut-être un distributeur. Le produit qu’il a acheté le plus est “FOLKART ZINC HEART CHRISTMAS DEC” pour plus de 6000 exemplaires.

Il est certes difficile de connaitre les habitudes d’achat de chaque client mais c’est ici une illustration pour démontrer qu’à partir d’une simple facture on peut trouver énormément d’informations sur les habitudes d’achat de nos clients. Ces informations peuvent être ensuite traiter de plusieurs façons différentes. C’est là que la créativité du Marketer intervient. Nous pouvons par exemple cibler les clients qui achètent beaucoup ce produit lorsqu’un nouveau coloris est disponible. Ce seront les early adopteurs pour les nouvelles collections en lien avec ce produit spécifique. En automatisant les choses jusqu’au bout, nous pourrions avoir des campagnes d’emailing personnalisées pour chaque client afin que la publicité retrouve du sens.

🎯Étape 5 : Création des segments clients

Pour créer nos catégories clients, nous allons nous reposer sur les scores RFM créés dans l’étape précédente. Nous allons assembler les 3 scores (Récence, Fréquence et Valeur Monétaire) qui nous donneront donc notre score RFM final.

La répartition des clients par score RFM s’effectue comme ce qui suit :

Le meilleur score est ici 111 car le client a un score de 1 en récence, un score de 1 en fréquence et un score de 1 en valeur monétaire. C’est donc le segment client qui va représenter les meilleurs clients pour l’entreprise. À l’inverse, le pire score est ici 444 qui représente les pires clients de l’entreprise.

Ce qui est assez surprenant est qu’en travaillant avec différents clients sur ce type de projet, les 3 catégories qu’on retrouve toujours au top sont donc 444, 344 et 111, pas dans ce même ordre mais toujours dans le TOP 3. Ceci veut donc dire qu’en règle générale les entreprises ont en majorité soit de très bons clients soit de très mauvais.

Nous avons ici plus d’une cinquantaine de scores différents, nous ne pouvons considérer un score comme un segment clients à part entière car il y aurait trop de segments à traiter et certains ne seraient pas très différents. Maintenant, le but est de créer au maximum une dizaine de segments clients dans lesquels nous rangerons les différents scores RFM.

On voit ici qu’il y a 345 clients qui ont un score de 111 et ces 345 clients représentent un chiffre d’affaires de plus de 6 millions de livres. Ces clients-là ont passé en moyenne 35 commandes sur les 3 dernières années. Préparons maintenant nos segments.

Segment 1 : Les VIP

Nous allons en profiter par débuter par les clients qui ont un score de 111 car ils vont avoir leur propre segment. On va appeler ce segment les “VIP”. Ils vont donc représenter la crème de la crème, les clients qu’il faudra chouchouter car ils représentent une bonne partie des ventes de l’entreprise.

Pour les repérer : Ces clients achètent très souvent, dépensent le plus et ont acheté récemment. C’est pour cela que le score 111 représente bien cela.

Actions à enclencher : Il faut les récompenser pour les fidéliser encore plus. Ils pourraient être la cible parfaite pour des pré-lancements de produits. Ils n’hésiteront pas à promouvoir la marque.

Segment 2 : Les clients loyaux

Ce sont donc les très bons clients qui se situent juste derrière les VIP. On pourrait y mettre des scores comme 112, 121 ou 211.

Pour les repérer : Ils dépensent souvent de l’argent et réagissent bien aux promotions.

Actions à enclencher : Leur promouvoir des produits plus chers en leur offrant des codes promotionnels et créer de l’engagement avec eux.

Segment 3 : Clients récents / Prometteur

C’est un segment client assez spécifique, on va d’abord regarder son ancienneté. S’il a un score de 4 en ancienneté c’est qu’il a commandé pour la première fois il y a moins de 60 jours. Nous allons ensuite regarder son nombre de commandes et s’il a un score de fréquence de 2 ou de 1, nous allons le considérer comme un client récent prometteur.

Actions à enclencher : Mail de bienvenue + offre de bienvenue personnalisée. Il faudra créer une notoriété de marque et offrir des échantillons gratuits.

Segment 4 : Clients nécessitant une attention particulière

Pour les repérer : Fréquence et valeurs monétaires supérieures à la moyenne mais il se peut qu’ils n’aient pas acheté très récemment.

Score RFM associés : 311, 312, 321, 322

Actions à enclencher : Faire des offres à durée limitée, recommander en fonction des achats passés (notamment les produits préférés). Les réactiver avant qu’il ne soit trop tard.

Segment 5 : Il ne faut pas les perdre

Pour les repérer : Il ont fait les plus gros achats, et souvent. Mais ne sont pas revenus depuis longtemps.

Score RFM associés : 411, 421, 412, 422. Si nous voulons être encore plus précis, nous pouvons garder uniquement le score 411 qui représente ce segment à merveille.

Actions à enclencher : Retrouvez-les grâce à des renouvellements ou à des produits plus récents. Tenter des offres agressives en terme de prix pour les faire revenir car ils ont le potentiel de revenir dans le segment “VIP”

Segment 6 : Presque endormi

Pour les repérer : Récence, fréquence et valeur monétaire inférieure à la moyenne. On risque de les perdre s’ils ne sont pas réactivés.

Score RFM associés : 323, 324, 332, 333

Actions à enclencher : Recommandez des produits populaires / des renouvellements à prix réduits, renouez avec eux.

Segment 7: Hibernation

Pour les repérer : Le dernier achat remonte à longtemps, les dépenses et le nombre de commandes sont faibles.

Score RFM associés : 334, 344, 433, 441, 442

Actions à enclencher : Proposez d’autres produits pertinents et des réductions spéciales. Recréer l’image de marque.

Segment 8: Clients perdus

Pour les repérer : Les scores les plus bas en termes de récence, de fréquence et de valeur monétaire.

Score RFM associés : 444, 443. Ces deux scores rassemblent le plus de clients.

Actions à enclencher : Il vaut mieux les ignorer et mettre plus d’énergie dans les actions marketing à destination des autres segments.

🎯Étape 6 : Entrainement d’un modèle de Machine Learning

Pour aller plus loin, il ne me reste plus qu’à entrainer un modèle de Machine Learning pour prédire quel score RFM auront les clients au bout d’une période donnée, 1 an par exemple. Pour ce faire, il faut donc prendre tous les mois les nouveaux clients et prendre les transactions liées à ce mois précis et essayer de prédire quel serait leur score RFM un mois plus tard. Je ne vais pas traiter ce sujet dans cet article car cela représente du bonus pour ce type de projet et est plus difficile à mettre en place. On peut dire que cette fonctionnalité ne fait pas partie du MVP du projet de segmentation clients.

Je vais donc en profiter pour conclure en résumant toutes les informations que nous avons pu accumulé sur nos clients à partir de simples factures dans une sorte de fiche client.

🏆FICHE CLIENT

Fiche client — Information principale
Fiche client — Statistiques d’achat + Préférences dans le temps
Fiche Client — Préférences d’achat

Illustrons cette fiche client par un exemple en reprenant le cas de notre meilleur client qu’on appellera ici Roger.

Roger a dépensé 483 455 £ en 3 années à travers 140 commandes. Sa dernière commande remonte à moins d’un jour et sa 1ère commande a plus de 737 jours (qui est la valeur maximale de notre base de données).

Roger est véritablement le client parfait, si l’entreprise n’avait que des Roger, elle serait multimilliardaire.

Avec ces valeurs Roger a donc un score RFM de 111 qui le situe dans la segment VIP des clients de cette entreprise. Avec ces valeurs on pouvait évidemment s’en douter.

Le comble dans tout ça est que Roger n’est même pas britannique, il vient des Pays-Bas. (Sachant que le CA de l’entreprise provient à 95% de l’UK) Il doit en avoir des frais de port aujourd’hui Roger.

Roger a un panier moyen de 3453 £ et un total des frais de port de 366£ ce qui est raisonnable finalement. Roger passe la des commandes très souvent mais il préfère tout de même le 26 du mois. Il préfère aussi commander le jeudi et est plutôt du matin car il a le plus commandé vers 10h.

Enfin, nous avons vu précédemment la répartition d’achat de Roger ainsi que ses préférences produits. On le résume comme suit :

👉 Répartition d’achat par catégorie de produits :

  • 32% en vaisselle
  • 22% en décoration pour la maison
  • 20% en sacs décoratifs

👉 Produits préférés :

  • Produit le plus acheté : DÉCORATION DE NOËL FOLKART ZINC COEUR
  • Produit avec le plus de dépenses : BOÎTES À SNACK RONDES ENSEMBLE DE 4 BOIS

🌼Conclusion🌼

Je vais donc terminer cet article ici car nous avons là tous les éléments nécessaires pour la construction de notre projet de segmentation clients sous un format MVP. Le prochain article que je publierai concernera le développement d’un Dashboard lié à ce projet. Je considère que le Dashboard est essentiel pour le run de ses actions quotidiennes. En effet, c’est là que nous pourrons lister l’ensemble des informations sur nos clients et où nous allons notamment retranscrire ces fiches clients dans un Dashboard plus lisible.

Merci à tous ceux qui seront arriver au bout, n’hésitez pas à me suivre sur Medium et à partager l’article au maximum, cela m’aiderait beaucoup. J’attend aussi vos retours avec impatience.

Miljan.

--

--

Miljan Stojiljkovic

Freelance en Data Science depuis 2 ans avec une expérience de consultant en Digital. J’essaie de réconcilier le business et la technique.