Big Data. C’est certainement le buzzword de la planète IT en 2014. Tout le monde en parle, mais peu de sociétés ont vraiment franchi le pas. Pourtant une étude de la société Fullsix, réalisée auprès de 100 décideurs français marketing et communication, montre que 81% d’entre eux sont convaincus de l’importance du Big Data, et 52% pensent même que la Big Data deviendra incontournable dans un futur proche. Cependant, les résultats de l’étude montrent également une faible mise en œuvre : seulement 18% des annonceurs ont concrètement lancé des projets, dont 6% utilisent la Big Data au quotidien.
Sur le papier, le Big Data (ou mégadonnées en français) a pourtant de quoi séduire : assurer la gestion d’une gigantesque quantité de données structurées, semi structurées ou non structurées, quand les outils classiques de gestion de bases de données se voient dépassés. Avec toujours le même objectif : tirer toute la quintessence de l’analyse de ces données, ce nouveau « pétrole numérique », pour anticiper l’avenir, tel que les attentes des clients par exemple.
Reste que la pluralité des données produites aujourd’hui dans le monde (qui peuvent désormais provenir de smartphones, de puces RFID, des différents capteurs placés dans les objets connectés…), et l’explosion du volume qu’elles représentent, impliquent une refonte de leur capture, leur stockage, leur recherche, leur partage, leur analyse et leur visualisation. Ce qui peut vite freiner les ardeurs des entreprises et soulever de très nombreuses questions.
Big Data : promesses…
Aider les entreprises à réduire les risques et améliorer la prise de décision, permettre l’analyse prédictive et optimiser la relation aux clients : telles sont les promesses du Big Data. Pour les décideurs marketing et communication (toujours selon l’étude menée par Fullsix) le Big Data s’applique aux problématiques du CRM (97%), du web (97%), du mobile (91%), de l’achat d’espace (84%) et de l’expérience en magasin (77%).
Mais, plus globalement, presque tous les domaines d’activités professionnelles peuvent trouver un intérêt dans le Big Data : analyse tendancielle ou gestion des risques (commerciaux, assuranciels, industriels, naturels..), politiques (campagnes électorales), médecins (épidémiologie), météorologues (changements climatiques), professionnels de l’énergie (smartgrids), etc. Potentiellement, presque tout le monde peut y trouver son compte.
…et réalités
Mais le Big Data n’est pas une formule magique. Ce n’est pas parce que le volume des données augmente rapidement dans le monde que le volume des données « utiles » augmente d’autant. Ce dernier est en effet borné aux questions que l’entreprise se pose. « Le Big Data, c’est le mythe du Data Scientist qui va chercher des patterns subtiles en explorant la Data, et au bout des utilisateurs qui détiennent un service packagé avec deux gros bouton rouge et vert, pour générer plus de trafic ou plus de chiffre d’affaires », explique avec humour Florian Douetteau, CEO de Dataiku, société spécialisée dans les solutions pour Data Scientists.
Un projet Big Data n’est pas qu’un projet technologique. Il doit relier un problème métier à un modèle mathématique, en s’attaquant par exemple aux problématiques de fidélité des clients, de fraudes (en déterminant les profils à risques), de gestion des stocks, d’ordonnancement et de ranking (dans quel ordre je dois présenter les choses), de prix, d’anticipation de séquences d’événements, etc.
Autant de problématiques qui pourront être automatisées avec des algorithmes. « Avec le Big Data, notre but est de trouver des leviers stratégiques, en améliorant l’expérience utilisateurs, l’analyse et l’innovation » confie Arthur Blanchon, responsable Big Data chez vente-privée.com.
Quelles technologies derrière la Big Data ? Hadoop n’est pas seul sur le marché !
« Il n’est pas facile de prendre des décisions technologiques concernant le Big Data de nos jours. Si j’étais CTO en ce moment, je ne serais pas vraiment à l’aise, parce que le nombre d’offres technologiques est supérieur à la demande. II y a presque plus de technologies disponibles que de problèmes », ironise Florian Douetteau de Dataiku.
Un projet Big Data s’articule autour de plusieurs modules, chacun d’eux pouvant être élaboré à partir des nombreuses offres technologiques. Ainsi les Elastic Search et autres Mongo Db peuvent communément répondre aux enjeux de stockage temps réel de type NoSQL, tandis que Hadoop, Spark ou un mix Cassandra/Spark sera utile pour le stockage massif.
En fonction des projets, il peut également être utile d’intégrer du Machine Learning, avec des technologies telles que Weka ou ML Base. Et plus simplement, le traitement des données en entrée du système (en temps réel ou non) représente à lui seul un enjeu auquel plusieurs technologies sont en mesure de répondre.
In fine, Il existe des dizaines de solutions pour chaque module d’un projet Big Data, soit des centaines d’architectures possibles. Dès lors, pas facile de choisir ?
Créé en 2005, Hadoop a aujourd’hui le vent en poupe
« Nous avons deux flux BI qui aliment notre Data Warehouse. Le premier fonctionne en temps réel et provient de nos applications. Il s’agit en fait des logs applicatifs qui sont envoyés dans Hadoop puis importés dans Vertica, explique Gaëlle Périat, Data Nerd en charge du Big Data chez Blablacar, la plateforme de covoiturage présente dans 13 pays. Les données externes, qui peuvent provenir de Facebook ou Twitter, représentent le deuxième flux. Il est géré par Data Science Studio de Dataiku, les données sont ensuite importées dans Vertica ».
Hadoop, un framework Java libre destiné à faciliter la création d’applications distribuées et scalables, a la faveur de nombreux participants. « Hadoop est très bien positionné pour répondre au besoin de la data, confirme Christophe Bourguignat, Senior Data Scientist travaillant pour un grand groupe d’assurance. Il permet une croissance itérative. C’est une solution très élastique, offrant une croissance progressive, selon l’apparition des besoins ». Christophe Bourguignat met également en lumière Elastic Search (NoSQL) pour analyser des données dans un bac à sable en toute sécurité. Il conseille enfin de s’intéresser dès à présent à Spark.
Spark le fédérateur d’une communauté de près 400 contributeurs
Christophe Bourguignat conseille par ailleurs, au même titre que Florian Douetteau de Dataiku, de s’intéresser à Spark. Le nouvel écosystème Spark, porté entre autre par Databriks et Yahoo, est une « véritable tendance techno 2014 dans le domaine du Big Data », selon les 2 protagonistes. En bref, Spark est un nouveau framework de calcul distribué en mémoire, avec une première couche dédiée au calcul, et des couches associées permettant de faire de l’apprentissage automatique, avec un système temps réel.
« Spark pourrait devenir un fédérateur et imposer son écosystème dans le domaine de la Big Data, et simplifier les problématiques d’architectures qui se posent lors du lancement d’un tel projet » ajoute un Florian Douetteau enthousiaste.
Digérer un volume important de données : la loi des 3 V
Volume (des données), Vitesse (des analyses), Variété (des formats) : digérer une très importante masse de données provenant des sources les plus variées avec un traitement proche du temps réel, voici les 3 grands principes qui régissent le Big Data. Des principes qui sont de plus en plus facilement applicables, notamment grâce au prix du stockage en RAM qui ne cesse de baisser.
« Nous faisons l’acquisition de 500 à 1000 documents à la seconde, soit environ 2 milliards de documents par mois, indique Philippe Guillebert, responsable infrastructure chez Linkfluence, société de Social Media Intelligence. Et pour gérer ces données, nous avons une capacité de stockage de 50 To ».
Mais il n’est pas nécessaire de traiter des gros volumes de données pour obtenir des résultats pertinents. Ce qui est le cas de petites sociétés clientes avec une communauté très forte. « Nous n’utilisons pour l’instant qu’1 To, annonce quant à lui Jean-Noël Rivasseau, CTO et fondateur de Kameleoon, société spécialisée dans l’A/B testing. Mais certains clients peuvent tirer beaucoup de valeur avec seulement quelques Go de données ».
Big Data : quand ont-ils sauté le pas ?