Les processus importants qui doivent être clairement définis pour l’exploration de données, l’analyse et la modélisation sont :
Modèle de données : quelles données seront disponibles et comment circuleront-elles ?
Collecte de données : comment les données seront-elles collectées à la fois en termes physiques et technologiques ?
Données collectées : quelles données seront collectées ?
Types de données : quels types de données seront collectées ?
Formatage des données : comment les données seront-elles conservées ?
Entreposage de données : où seront conservées les données ?
Data mining : comment va-t-on récupérer les données de l’entrepôt ?
Modélisation de l’information : comment va-t-on créer des modèles et de quoi ?
Accès aux informations : comment accéderons-nous aux modèles de données et aux rapports ?
Présentation & reporting : sur quoi allons-nous rapporter ?
La plupart des entreprises souhaitent connaître les informations essentielles sur les clients à chaque point de contact, par exemple :
Valeur à vie
X potentiel de vente et de mise à niveau
Coût d’acquisition
Préférences de canal
Fidélisation/rétention
Modèles de comportement d’achat
Une grande partie des données dont ils disposent auront des fréquences de changement, de rafraîchissement ou d’occurrence différentes. Il sera conservé pendant différentes périodes. Dans certains cas, des données agrégées peuvent être conservées plutôt que des données sources. Tous ces facteurs affectent l’exercice de modélisation des données et les exigences éventuelles du logiciel de modélisation.
Transformer les données en informations utiles nécessite :
Identifier le(s) problème(s)
Assembler le(s) jeu(x) de données
Construire des modèles
Vérifier les modèles
Interprétation des résultats
Automatisation de la livraison
Par la suite, des outils et des techniques de modélisation doivent être utilisés. Celles-ci peuvent être divisées en deux groupes : axées sur la théorie et axées sur les données.
La modélisation basée sur la théorie (test d’hypothèse) tente de justifier ou de réfuter les idées préconçues. Les outils de modélisation basés sur la théorie exigent que l’utilisateur spécifie la majeure partie du modèle sur la base de connaissances antérieures, puis teste pour voir si le modèle est valide.
Les outils de modélisation basés sur les données créent automatiquement le modèle en fonction des modèles qu’ils trouvent dans les données. Cela doit également être testé avant de pouvoir être accepté comme valide.
La modélisation est un processus itératif, le modèle final étant généralement une combinaison de connaissances antérieures et d’informations nouvellement découvertes. Les outils et techniques du ou des moteurs comprennent :
Techniques statistiques
Outils pilotés par les données
Corrélation Analyse de
grappes
Tests t Analyse
factorielle
Analyse de la variance
Arbres de décision CHAID (Chi-square Automatic Interaction Detector)
Régression linéaire
Outils de visualisation
Régression logistique
Réseaux de neurones
Analyse discriminante