Data Journey - Partie 2 : l'Analyse des Flux

Toutes les entreprises possèdent des données. Certaines en tirent de l'or, mais d'autres se contentent de les collecter dans l'espoir d'en obtenir un jour de la valeur.
S'il n'y a pas de voie facile pour maximiser la valeur de vos données, il existe au moins une progression claire. Dans ce deuxième article d'une série de quatre, nous verrons comment réduire la latence de notre analyse.

Dans notre précédent billet, nous avons examiné l'analyse descriptive, qui est axée sur le passé et vous laisse le soin de tirer des conclusions avec du recul.
Le problème est que vos conclusions peuvent être dépassées car elles sont basées sur des données anciennes. La latence de votre analyse sera aussi longue que le temps écoulé depuis votre dernier lot traité, ce qui peut prendre des heures, voire des jours. Bien que nous puissions réduire le temps entre les lots, nous entrons dans le paradoxe de Zénon, n'arrivant jamais à notre destination du moment présent. L'analyse en continu nous permet d'analyser les données au fur et à mesure qu'elles arrivent.

Au lieu de traiter toutes les données qui sont arrivées depuis la dernière exécution de notre lot, nous traitons chaque élément de données au fur et à mesure.
Généralement, nous introduisons un pipeline vers lequel les données sont poussées à partir de nos systèmes sources.
Au fur et à mesure que les données circulent dans le pipeline, nous effectuons l'analyse souhaitée, qui peut également être enrichie par d'autres sources.
Une fois analysées, nous pouvons extraire les données traitées vers un tableau de bord en temps réel ou peut-être même vers notre entrepôt de données pour une analyse plus poussée.

Pousser les données à partir des systèmes sources peut être un défi.
Vous devrez peut-être ajouter des crochets aux principaux événements du cycle de vie de l'entreprise pour envoyer les données. De nombreuses bases de données transactionnelles vous permettent de saisir les données de changement qui peuvent être relayées avec des outils tels que Debezium directement dans Kafka.

La valeur du traitement en temps quasi réel vient du fait que vous pouvez prendre des décisions en fonction de ce qui se passe dans votre entreprise à l'heure actuelle. Une société de plates-formes de jeux vidéo avec laquelle j'ai travaillé a utilisé l'analyse de flux pour réagir au harcèlement en ligne dans ses forums de discussion. Plutôt que de s'appuyer sur les modérateurs ou les plaintes des utilisateurs, ils ont pu réagir dès l'arrivée d'un commentaire, empêchant ainsi l'apparition du commentaire et avertissant l'auteur de son comportement inacceptable.

La détection du harcèlement en ligne ne se limite pas à la simple lecture des commentaires. Ce détecteur était en fait un modèle appris par la machine avec lequel nous interagissions au fur et à mesure que les données arrivaient par le pipeline de diffusion en continu. La combinaison de l'analyse du streaming et des déductions de l'apprentissage machine est très puissante et constitue une façon de commencer à explorer le sujet de notre prochain article, l'analyse prédictive.

Auteur :
Mike Fowler
PRINCIPAL DATA ENGINEER