Data Journey - Partie 3 : l'Analyse Prédictive

Toutes les entreprises possèdent des données. Certaines en tirent de l'or, mais d'autres se contentent de les collecter dans l'espoir d'en obtenir un jour de la valeur.
S'il n'y a pas de voie facile pour maximiser la valeur de vos données, il existe au moins une progression claire. Dans ce troisième article d'une série de quatre, nous allons voir comment nous pouvons projeter notre analyse dans le futur.

Dans nos précédents articles (Analyse Descriptive et Analyse des flux), nous avons maîtrisé notre passé et nous pouvons maintenant nous tourner vers l'avenir grâce à l'analyse prédictive. Ici, nous nous intéressons davantage à ce qui se passera compte tenu de ce qui s'est passé auparavant. C'est ici que nous constatons que l'apprentissage machine (Machine Learning) est à l'honneur, mais il convient de noter que ce n'est pas la seule technique. En fin de compte, nous construisons un modèle prédictif à partir duquel nous pouvons faire des déductions qui influencent notre prise de décision.

Pour élaborer le modèle le plus précis possible, nous avons généralement besoin d'autant de données que possible. Si vous repensez aux statistiques de votre lycée, nos données représentent un échantillon de l'ensemble de la population qui nous intéresse. Plus l'échantillon est important, plus nous avons de chances d'avoir vu toutes les possibilités et moins nous risquons de rencontrer un Cygne Noir jusqu'alors inconnu.

Si l'on examine notre entrepôt de données, on constate deux problèmes : nous n'avons extrait qu'un sous-ensemble de nos données (et souvent seulement des données structurées) et nous l'avons façonné pour qu'il soit conforme à un modèle particulier. Qu'en est-il du reste des données ? Et si nous n'avions pas modélisé quelque chose dans notre entreprise qui soit en fait hautement prédictif ? Nous avons besoin d'une autre façon de stocker et d'accéder à nos données : le Data Lake.

Dans sa forme la plus simple, un Data Lake est un magasin d'objets où nous pouvons mettre toutes nos données, structurées ou non. Ce que nous ne faisons pas, c'est manipuler les données pour nous conformer à un modèle préexistant, nous ne nous préoccupons que du stockage. La création d'un Data Lake optimal peut demander beaucoup de travail et ne doit pas être sous-estimée. Ce n'est pas parce que les données sont là que vous pouvez les interroger sans tout lire pour trouver les enregistrements qui vous intéressent. Un lac de données mal conçu devient rapidement prohibitif si vous scannez des pétaoctets de données à chaque requête.

La véritable puissance du Data Lake est la capacité de modélisation à la demande. Les données étant stockées de manière aussi brute que possible, nous sommes libres d'explorer autant de modèles que nous le souhaitons. Comparez cela avec l'approche de l'entrepôt de données qui consiste à faire passer le modèle en premier, où le moindre changement peut prendre des heures ou des jours à se manifester. Vous pouvez voir le gain de temps que cette capacité à expérimenter rapidement apporte sans avoir à extraire, retransformer et recharger toutes nos données à partir des systèmes sources.

Alors, quelle valeur apporte l'analyse prédictive ? Voici deux exemples, l'un qui augmente la valeur et l'autre qui réduit les coûts, tous deux provenant du commerce de détail. L'historique des achats de tous nos clients nous permet de construire des modèles de prévision de la demande de produits. Le fait de savoir quand certains produits sont plus susceptibles de se vendre et en quelles quantités nous permet d'acheter à nos fournisseurs plus rapidement, ce qui signifie moins de stocks invendus encombrant les entrepôts et les magasins.

L'historique des achats de chaque client nous permettra de prévoir la probabilité d'une rupture de stock. Savoir exactement quand envoyer un bon de réduction à un client en déclin pour son produit préféré peut permettre de regagner ce client et savoir qu'un autre client est toujours fidèle vous évite d'offrir une réduction inutile.

Une fois que vous avez un modèle prédictif bien formé et fonctionnant bien en production, vous en créerez bientôt d'autres. En modélisant mieux votre entreprise, vous développerez une capacité très puissante, la capacité d'expérimenter les modèles et de mesurer l'impact. Nous aborderons ce point dans notre dernier billet lorsque nous nous pencherons sur l'analyse prescriptive.

Auteur :
Mike Fowler
PRINCIPAL DATA ENGINEER