L’IoT dans l’industrie : pourquoi votre entreprise a-t-elle besoin d’un catalogue de données

L’IoT dans l’industrie : pourquoi votre entreprise a-t-elle besoin d’un catalogue de données

iot-manufacturing-industry-fr

La transformation digitale est devenue une priorité dans la stratégie globale des entreprises et les industries ne font pas exception à la règle ! Avec des attentes plus fortes des clients, des demandes de personnalisation accrues et la complexité de la chaîne d’approvisionnement mondiale, les industries doivent trouver de nouveaux produits et services plus innovants. En réponse à ces challenge, les entreprises manufacturières investissent de plus en plus dans l’IoT (Internet des objets). 

En effet, le marché de l’IoT a connu une croissance exponentielle au cours des dernières années. Selon IDC, l’empreinte de l’IoT devrait atteindre 1,2 billion de dollars en 2022, et Statista, en revanche, estime que son impact économique pourrait se situer entre 3,9 et 11,1 billions de dollars d’ici 2025. 

Dans cet article, nous définissons ce qu’est l’IoT et certains cas d’utilisation spécifiques à la fabrication, et nous expliquons pourquoi un catalogue de données Zeenea est un outil essentiel pour permettre aux fabricants de progresser dans la mise en œuvre de l’IoT.

Qu’est-ce que l’IoT ?

Une définition rapide 

Selon Tech Target, l’Internet of Things (IoT), ou Internet des Objets en français, « est un système de dispositifs informatiques interconnectés, de machines mécaniques et numériques, d’objets ou de personnes qui sont dotés d’identificateurs uniques et de la capacité de transférer des données sur un réseau sans nécessiter d’interaction d’homme à homme ou d’homme à ordinateur ».

Une « chose » dans l’IoT peut donc être une personne munie d’un implant de moniteur cardiaque, une automobile qui possède des capteurs intégrés pour alerter le conducteur lorsque la pression des pneus est basse ou tout autre objet auquel on peut attribuer un identifiant et qui est capable de transférer des données sur un réseau.

Du point de vue de la fabrication, l’IoT est un moyen de numériser les processus industriels. L’IoT industriel utilise un réseau de capteurs pour collecter des données de production critiques et utilise divers logiciels pour transformer ces données en informations précieuses sur l’efficacité des opérations de fabrication.

Cas d’utilisation de l’IoT dans les industries manufacturières

Actuellement, de nombreux projets IoT portent sur la gestion des installations et des actifs, la sécurité et les opérations, la logistique, le service à la clientèle, etc. Voici une liste d’exemples de cas d’utilisation de l’IoT dans le secteur manufacturier :

Maintenance prédictive

Pour les industries, les temps d’arrêt et les pannes imprévus sont les plus grands problèmes. Les entreprises manufacturières réalisent donc l’importance d’identifier les pannes potentielles, leurs occurrences et leurs conséquences. Pour surmonter ces problèmes potentiels, les entreprises utilisent désormais le Machine Learning (ML) pour prendre des décisions plus rapides et plus intelligentes fondées sur des données.

Grâce au ML, il devient facile d’identifier des modèles dans les données disponibles et de prévoir les résultats des machines. Ce type d’information permet aux fabricants d’estimer l’état actuel des machines, de déterminer les signes d’alerte, de transmettre des alertes et d’activer les processus de réparation correspondants.

Grâce à la maintenance prédictive par l’utilisation de l’IoT, les fabricants peuvent réduire les coûts de maintenance, diminuer les temps d’arrêt et prolonger la durée de vie des équipements, améliorant ainsi la qualité de la production en s’occupant des problèmes avant que les équipements ne tombent en panne. 

Par exemple, Medivators, l’un des principaux fabricants d’équipements médicaux, a intégré avec succès les solutions IdO dans l’ensemble de son service et a enregistré une augmentation impressionnante de 78 % des événements de service qui ont pu être facilement diagnostiqués et résolus sans ressources humaines supplémentaires.

Suivi des actifs

Le suivi des actifs de l’IoT est l’un des phénomènes qui se développe le plus rapidement dans les industries. D’ici 2027, on prévoit que 267 millions de systèmes de suivi des actifs seront utilisés dans le monde entier pour l’agriculture, la chaîne d’approvisionnement, la construction, l’exploitation minière et d’autres marchés. 

Alors que par le passé, les fabricants passaient beaucoup de temps à suivre et à vérifier manuellement leurs produits, l’IoT utilise des capteurs et des logiciels de gestion des actifs pour suivre les choses de manière automatique. Ces capteurs diffusent en permanence ou périodiquement leurs informations de localisation sur internet et le logiciel affiche ensuite ces informations pour que vous puissiez les consulter. Cela permet donc aux entreprises manufacturières de réduire le temps qu’elles passent à localiser des matériaux, des outils et des équipements.

L’industrie automobile en est un exemple frappant : l’IoT a contribué de manière significative au suivi des données relatives aux véhicules individuels. Par exemple, Volvo Trucks a introduit des services de flotte connectée qui comprennent une navigation intelligente avec des conditions routières en temps réel basées sur des informations provenant d’autres camions Volvo locaux. À l’avenir, un plus grand nombre de données en temps réel provenant des véhicules aidera les analyses météorologiques à travailler plus rapidement et avec plus de précision ; par exemple, l’utilisation des essuie-glaces et des phares pendant la journée indique les conditions météorologiques. Ces mises à jour peuvent aider à maximiser l’utilisation des actifs en réorientant les véhicules en fonction des conditions météorologiques.

Un autre exemple de suivi est visible sur Amazon. L’entreprise utilise des robots WiFi pour scanner les codes QR de ses produits afin de suivre et de trier ses commandes. Imaginez que vous puissiez suivre votre inventaire, y compris les fournitures que vous avez en stock pour une future fabrication, en un seul clic. Vous ne raterez plus jamais une échéance ! Et encore une fois, toutes ces données peuvent être utilisées pour trouver des tendances afin de rendre les échéances de fabrication encore plus efficaces. 

Un moteur pour l’innovation

En collectant et en vérifiant les données industrielles, les entreprises peuvent mieux suivre les processus de production et collecter des quantités exponentielles de données. Ces connaissances permettent de développer des produits et des services innovants ainsi que de nouveaux modèles business. Par exemple, JCDecaux Asia a développé sa stratégie d’affichage grâce aux données et à l’IoT. Leur objectif était d’avoir une idée précise de l’intérêt des gens pour les campagnes qu’ils réalisaient, et d’attirer de plus en plus leur attention par des animations sur leurs écrans. « Sur certains écrans, nous avons installé de petites caméras, qui nous permettent de mesurer si les gens ralentissent devant la publicité ou non », explique Emmanuel Bastide, Directeur Général Asie de JCDecaux.

A l’avenir, l’affichage des publicités sera-t-il adapté aux profils individuels ? JCDecaux affirme que dans les aéroports, par exemple, il est possible de mieux cibler la publicité en fonction de l’heure de la journée ou de l’atterrissage d’un avion en provenance d’un pays en particulier ! En étant connectées aux systèmes d’arrivée de l’aéroport, les données générées peuvent envoyer l’information aux terminaux d’affichage, qui peuvent alors afficher une publicité spécifique pour les passagers à l’arrivée.

Catalogue de données : une source de vérité pour maîtriser vos données industrielles

Pour permettre des analyses avancées, collecter des données à partir de capteurs, garantir la sécurité numérique et utiliser le machine learning et l’intelligence artificielle, les industries doivent « déverrouiller leurs données ». Cela signifie les centraliser dans des sortes de « pages jaunes » intelligentes et faciles à utiliser au sein du paysage des données de l’entreprise.

Un data catalog est un dépôt central de métadonnées permettant à toute personne dans l’entreprise d’avoir accès, de comprendre et de faire confiance à toutes les données nécessaires pour atteindre un objectif particulier.

 

Zeenea, le data catalog pour les industries 

Zeenea aide les industries à construire une chaîne de valeur de l’information de bout en bout. Notre data catalog permet de gérer une base de connaissance à 360° en utilisant tout le potentiel des métadonnées de vos actifs d’entreprise.

Renault Success Story : Comment Zeenea Data Catalog est devenu incontournable

En 2017, Renault Digital est né avec l’objectif de transformer le groupe Renault en une entreprise data-driven. 

Aujourd’hui, cette entité est composée d’une communauté d’experts en termes de pratiques digitales, capable d’innover de manière agile sur les projets informatiques de l’entreprise. Lors d’une conférence au Data Centric Exchange de Zeenea, Jean-Pierre Huchet, responsable du Data Lake de Renault, explique que leurs principaux challenges data étaient : 

  • Les données étaient trop silotées,
  • Accès aux données compliqué,
  • Pas de définition claire et partagée des termes relatifs aux données,
  • Manque de visibilité sur les données personnelles ou sensibles,
  • Faible acculturation à la donnée (ou data literacy).

En choisissant Zeenea comme data catalog, ils ont pu relever ces défis. Zeenea est aujourd’hui devenu une brique essentielle dans les projets de données de Renault Digital. Son succès peut se traduire par :

  • Son intégration dans l’embarquement de Renault Digital : la maîtrise du data catalog fait partie de leur programme de formation.
  • Des processus et des règles de documentation résistants mis en œuvre via Zeenea.
  • Des centaines d’utilisateurs actifs. 

Aujourd’hui, Zeenea est leur principal data catalog. Les objectifs de Renault Digital sont d’acquérir une vision claire des données en amont et en aval de leur data lake hybride, une vue à 360 degrés de l’utilisation de leurs données, ainsi que la création de plusieurs milliers de Data Explorers au sein de Zeenea Data Catalog

Les fonctionnalités uniques de Zeenea adaptées à l’industrie

Chez Zeenea, notre catalogue de données a les caractéristiques suivantes pour résoudre vos problématiques IoT :

  • Connectivité universelle à toutes les technologies utilisées par les fabricants
  • Des métamodèles flexibles et adaptés aux contextes des industries
  • Une mise en conformité facilitée grâce au data lineage automatique
  • Une transition sans heurts pour devenir data literate à travers des expériences utilisateurs captivantes 
  • Une plateforme au prix raisonnable et au retour sur investissement rapide 

 

Vous souhaitez déverrouiller l’accès aux données pour votre entreprise ?

Vous êtes dans l’industrie ? Obtenez les clés pour déverrouiller l’accès aux données de votre entreprise en téléchargeant notre nouveau livre blanc « Unlock data pour l’industrie ».

Total : la réussite de sa transformation digitale

Total : la réussite de sa transformation digitale

total-data

Total, l’une des 7 compagnies pétrolières “SuperMajor”, a récemment ouvert son usine numérique “Digital Factory” en début d’année à Paris. La Digital Factory réunira jusqu’à 300 profils différents, tels que des développeurs, des spécialistes data et d’autres experts en digital, afin d’accélérer la transformation numérique du groupe.

Plus précisément, la Digital Factory de Total vise à développer les solutions numériques dont Total a besoin pour améliorer ses opérations de disponibilité et de coût afin d’offrir de nouveaux services à ses clients. Leurs priorités sont principalement centrées sur la gestion et le contrôle de la consommation d’énergie, la capacité à étendre leur portée à de nouvelles énergies distribuées, ainsi qu’à fournir des solutions plus respectueuses de l’environnement. L’ambition de Total est de générer 1,5 milliard de dollars de valeur par an pour l’entreprise d’ici 2025.

A l’occasion du concours du Meilleur Développeur de France 2019, Patrick Pouyanné, Président-Directeur Général de Total, a déclaré

« Je suis convaincu que le digital est un moteur essentiel pour atteindre nos objectifs d’excellence dans tous les secteurs d’activité de Total. La Digital Factory de Total servira d’accélérateur, permettant au Groupe de déployer systématiquement des solutions digitales sur-mesure. L’intelligence artificielle (IA), l’Internet des objets (IoT) et la 5G révolutionnent nos pratiques industrielles, et nous aurons le savoir-faire à Paris pour les intégrer le plus tôt possible dans nos activités. La Digital Factory attirera également les nouveaux talents indispensables à l’avenir de notre entreprise ».

 

Qui compose les équipes de la Digital Factory ?

Dans une interview accordée à Forbes en octobre dernier, Frédéric Gimenez, Chief Digital Officer de Total et responsable du projet Digital Factory, a décrit la manière dont les équipes seront structurées au sein de l’usine numérique. 

Comme mentionné ci-dessus, l’équipe comptera environ 300 profils différents, tous travaillant selon des méthodologies agiles : les lignes managériales seront auto-organisées, sans hiérarchie, en grande autonomie et les cycles de développement seront courts afin de « test & learn » rapidement et efficacement. 

 Gimenez explique qu’il y aura plusieurs équipes dans son usine numérique :

  • Le Data Studio, qui sera composée de data scientists. Le CDO (Chief Data Officer) de Total sera le responsable de cette équipe et leurs principales missions seront d’acculturer l’entreprise aux données et de gérer les compétences data de la Digital Factory. 
  • Un pool de développeurs et de coachs agiles.

  •  Le Design Studio, regroupera des professionnels de l’UX et de l’UI. Ils contribueront à l’élaboration de diverses idées créatives et interviendront non seulement au stade de l’analyse des projets commerciaux de Total, mais aussi au cours du parcours du client.

  • Une équipe Tech Authority, chargée de la sécurité et de l’architecture data, afin de transformer efficacement leur legacy dans un environnement digital.

  • Une équipe « plateforme », qui sera en charge des différents stockages de données tels que leur environnement Cloud, leur data lake, etc.

  •  Un bureau Product & Value, chargé de gérer le portefeuille de la Digital Factory, il évaluera la valeur des projets avec l’entreprise et analysera tous les cas d’utilisation soumis à la Digital Factory. 
  • Un service des ressources humaines et un secrétariat général 

  •  Des Product Owners qui viennent du monde entier. Ils sont formés aux méthodes agiles dès leur arrivée et sont ensuite inclus dans leur projet pendant 4 à 6 mois. Ils accompagnent ensuite à la transformation digitale.  

Ces équipes seront bientôt réunies dans un espace de travail de 5 500 m2 au cœur de Paris dans le 2ème arrondissement, un espace ouvert favorisant la créativité et l’innovation. 

 

Comment fonctionne la gouvernance chez Digital Factory 

Gimenez a expliqué que les métiers sont responsables de leurs cas d’utilisation dans la Digital Factory.

Cette usine analyse l’éligibilité de leurs cas d’utilisation à travers quatre critères :

  • Valeur apportée lors de la 1ère itération et lors de sa mise à l’échelle 
  • Faisabilité (technologie / données)
  • Appétence du client / Impact interne
  • Scalabilité 

Un comité interne de l’Usine numérique décide alors si le cas d’utilisation est pris en charge ou non et la décision finale est validée par Gimenez lui-même. 

Pour une bonne coordination avec les métiers, les représentants digitaux des branches sont également situés au sein de la Digital Factory. Ils sont chargés d’acculturer les métiers et de piloter la génération d’idées, mais aussi de veiller à la cohérence des initiatives numériques de leur branche avec les ambitions du Groupe, Total les appelle les Digital Transformation Officers. 

 

Premiers succès de la Digital Factory de Total

Digital Factory a démarré en mars dernier et a déployé ses premières équipes en avril lors du premier confinement en France. Dans l’interview accordée à Forbes, M. Gimenez a expliqué que 16 projets sont en cours avec un objectif de 25 squads en régime permanent.

Les deux premières solutions numériques seront livrées d’ici la fin de l’année :

  • Un outil pour Total Direct Energie pour aider les clients à trouver le meilleur échéancier de paiement en utilisant des algorithmes et de la data

  • Une solution d’optimisation logistique basée sur l’IoT des camions pour la branche Marketing et Services, qui sera déployée dans 40 filiales.

Par ailleurs, Total a réussi à attirer des experts tels que des data scientists (malgré une forme de communication encore très limitée comme Welcome to the Jungle ou Linkedin) et à les fidéliser en proposant une diversité de projets.

« Nous réalisons actuellement une première évaluation de ce qui a fonctionné et de ce qui doit être amélioré, nous sommes dans un processus d’adaptation permanente », a déclaré M. Gimenez.

 

La Digital Factory dans le futur ?

Gimenez a conclu l’interview de Forbes en disant que la principale raison du succès de son projet est la mobilisation générale que tout le monde a conservé malgré le contexte sanitaire : « Nous avons reçu plus de cas d’utilisation que nous ne sommes en mesure d’en fournir (50 projets par an pour alimenter en permanence nos 25 squads) !

Sinon, nous avons Total a deux grands ensembles de KPI :

. mesurer le bon fonctionnement des squads en examinant les KPI de leurs méthodologies agiles

. suivre la valeur générée

 

Vous souhaitez déverrouiller l’accès aux données pour votre entreprise ?

Vous êtes dans l’industrie ? Obtenez les clés pour déverrouiller l’accès aux données de votre entreprise en téléchargeant notre nouveau livre blanc « Unlock data pour l’industrie ». 

Comment les données ont-elles impacté le secteur industriel ?

Comment les données ont-elles impacté le secteur industriel ?

iot-dans-l'industrie

La place de la data est – ou devrait être – centrale dans l’industrie. De l’optimisation des flux de production en passant par la maintenance prédictive, jusqu’à la personnalisation, l’exploitation de la donnée est un levier majeur de transformation de l’Industrie. Mais derrière les promesses, la data implique de grandes responsabilités. Explications.

Le secteur industriel est déjà engagé sur la voie d’une production data-driven. Dans l’édition 2020 de son Baromètre de l’industrie 4.0, le cabinet Wavestone révèle ainsi que 86% des répondants déclarent avoir lancé des projets Industrie 4.0. Déploiement de plateformes IoT, refonte de l’architecture IT historique, mouvement vers le Cloud, mise en œuvre de data lake…  la donnée est au cœur des enjeux de transformation de l’industrie. 

« En 2020, nous commençons à voir de plus en plus de projets autour de la donnée, de l’algorithmie, autour de l’intelligence artificielle, du machine learning ou encore des chatbots, etc. », précise Wavestone. 

Tous les secteurs sont impactés par cette transformation. Ainsi, selon les prévisions de Netscribes Market Research, le marché mondial de l’IoT automobile par exemple devrait atteindre 106,32 milliards de dollars à l’horizon 2023. Le moteur de l’adoption de stratégies data-driven dans l’industrie, c’est la nécessité d’une productivité accrue à moindre coût.

Quels sont les challenges data dans l’industrie ?

L’exploitation de la data dans l’industrie est aussi une perspective de répondre à un enjeu clé : celui de la mass-personnalisation de la production. Une réalité qui affecte tout particulièrement le secteur automobile. Chaque consommateur est unique et il entend bien disposer des produits qui lui ressemblent. Mais par essence, l’industrie a fondé ses modes de production sur les volumes et les standards ! 

La Mass-Personnalisation de la production est, par conséquent, le levier de la révolution data-driven aujourd’hui en marche dans l’industrie. Mais d’autres considérations entrent en ligne de compte. Un outil industriel plus intelligent permet de réduire les coûts et délais de production et de répondre à l’accélération générale du time-to-market. La data contribue également à répondre à des enjeux écologiques en réduisant l’empreinte environnementale de l’outil de production. 

Qu’il s’agisse d’intégrer l’IoT, d’utiliser les big data, la business Intelligence, le Machine Learning, ces technologies sont autant d’opportunités de réinventer une industrie nouvelle fondée sur la donnée (capteurs embarqués, machines et produits connectés, internet des objets, virtualisation). 

Mais, derrière ces perspectives, les défis sont nombreux. Le premier d’entre eux, c’est le cadre extrêmement rigoureux défini par le RGPD (Règlement Général sur la protection des données) en application en mai 2018. L’omniprésence de la donnée dans le monde industriel n’a pas échappé aux organisations mafieuses et au cybercriminels qui multiplient les assauts sur les infrastructures IT des acteurs de l’industrie depuis 2017 avec le tristement célèbre ransomware Wannacry. 

Une attention qui se nourrit d’une autre difficulté du secteur industriel : des environnements IT souvent anciens et conçus comme des mille-feuilles technologiques multipliant les vulnérabilités potentielles. L’hétérogénéité des sources de données est une autre difficulté sensible pour l’industrie. Données marketing, données produits, données logistiques, sont souvent fortement silotées et difficiles à réconcilier en temps réel.

 

Data & Industrie : des bénéfices bien réels

Si l’on s’en réfère aux chiffres du Baromètre Wavestone, 74% des entreprises interrogées ont enregistré des résultats tangibles sous 2 ans. Près de 7 entreprises sur 10 (69%) soulignent une réduction des coûts, et 68% évoquent une amélioration de la qualité des services, des produits ou du processus. 

En moyenne, les programmes de transformations autour des technologies créant ou traitant de la donnée ont permis une optimisation de la performance énergétique de 20 à 30%, une réduction des temps d’indisponibilité grâce à une meilleure surveillance des équipements pouvant atteindre jusqu’à 40% dans certains secteurs). 

Augmentation de la traçabilité des opérations et des outillages, supervision en temps réel des conditions de fonctionnement des outils de production, autant d’éléments contribuant à prévenir les erreurs, à optimiser le suivi des produits mais aussi à détecter de nouveaux leviers d’innovation liés à l’analyse de signaux faibles grâce aux solutions d’IA par exemple. 

Au cœur de cette transformation du secteur industriel : la nécessité de s’appuyer sur des solutions d’intégration et de gestion de la donnée à la fois puissantes, stables et ergonomiques pour accélérer l’adoption d’une culture data forte.

Air France : stratégie Big Data dans un contexte de cloud hybride

Air France : stratégie Big Data dans un contexte de cloud hybride

airfrance big data

Air France-KLM est le premier groupe en matière de trafic international au départ de l’Europe. La compagnie est membre de l’alliance SkyTeam regroupant 19 compagnies aériennes et offrant un accès à un réseau mondial de plus de 14 500 vols quotidiens vers plus de 1 150 destinations autour du monde. En 2019, Air France c’était : 

  • 104,2 millions de passagers,
  • 312 destinations 
  • 119 pays,
  • 546 avions,
  • 15 millions de membres inscrits à leur programme de fidélité “Flying Blue”*,
  • 2 300 vols par jour*. 

Au Big Data Paris 2020, Eric Poutrin, Lead Enterprise Architect Data Management & Analytics chez Air France, nous a expliqué comment fonctionne une compagnie aérienne, le parcours de leur stratégie big data jusqu’à la mise en place d’une structure Cloud Hybride et où ils en sont aujourd’hui.

air-france-big-data-paris-1-1

Comment fonctionne une compagnie aérienne ?

Avant de commencer à parler data, il est impératif de comprendre comment fonctionne une compagnie aérienne de la création du trajet de vol, à l’atterrissage de l’avion. 

Avant de planifier un trajet, la première étape pour une compagnie aérienne telle que Air France est d’avoir un programme de vol. Notez qu’en période de crise sanitaire, ils sont amenés à changer assez fréquemment. Une fois le programme de vol mis en place, il y a trois flux totalement séparés qui se mettent en marche pour qu’un vol ait lieu, avec une date et une heure de départ données :

 

  • le flux des passagers, qui passe par différentes formes de services pour faciliter l’expérience du voyageur dans son parcours, de l’achat des billets sur leurs différentes plateformes (web, app, physique) à la mise à disposition de personnels ou de bornes automatiques dans les différents aéroports pour aider les voyageurs à s’enregistrer, déposer leurs bagages, etc.

  • le flux du personnel de bord, avec des profils adaptés avec les qualifications requises pour faire fonctionner ou piloter les avions, ainsi que la gestion des plannings des stewards et hôtesses de l’air.

  •  le flux ingénierie pour avoir le bon avion avec la bonne configuration au bon point de parking.
air-france-big-data-paris-2

Cependant, Eric nous confie que tout cela… c’est dans un monde idéal : 

“Le “produit” d’une compagnie aérienne passe par le client, et donc tous les aléas se voient. Puis, tous les aléas de chaque flux impactent les uns les autres ! Donc plus on approche de la date du vol, plus ces aléas deviennent critiques.”

Suite à ces constats, il y a 25 ans maintenant, Air France a décidé de mettre en place une architecture orientée “service,” qui permet de pouvoir, entre autres,  la notification des abonnés en cas d’aléas sur n’importe quel flux. Ces notificationsen temps réel sont poussées soit aux agents ou aux passagers en fonction des besoins : la prévention d’aléas techniques (un avion qui tombe en panne), des aléas météorologiques, la prévention des retards, etc.

“L’objectif c’était de franchir la marge entre une approche analytics traditionnelle et une approche analytics moderne axée sur l’analyse omniprésente, prédictive et prescriptive, à grande échelle.” Nous affirme Éric. 

La parcours de la stratégie Big Data d’Air France

air-france-big-data-paris-3

La chronologie

En 1998, Air France avait commencé par monter un data warehouse d’entreprise sur la partie commerciale rassemblant les données clients, équipages et techniques qui permettaient aux équipes informatiques de la firme de construire des reportings d’analyse. 

Eric nous livre qu’en 2001, suite à la crise sanitaire du SRAS (syndrome respiratoire aigu sévère), Air France a dû redéployer des avions suite à l’interdiction de vols entrants aux États Unis. C’est le data warehouse de la firme qui leur a permis de trouver d’autres sources de revenus, grâce leurs algorithmes de machine learning et d’intelligence artificielle. Cette manière de travailler avec la donnée avait bien fonctionné pendant 10 ans et a même permis à la firme de pouvoir surmonter plusieurs autres difficultés, notamment la tragédie du 11 septembre 2001 et la crise de la montée des prix du pétrole. 

En 2012, les équipes data d’Air France ont décidé de mettre en place une plateforme Hadoop afin de pouvoir faire des analyses prédictives ou prescriptives (selon les besoins de chacun) en temps réel, car le data warehouse ne répondait plus à ces nouveaux besoins et à la forte volumétrie d’informations à gérer. C’est seulement en quelques mois après l’implémentation d’Hadoop, de KAFKA, et d’autres technologies nouvelle-génération que la firme a pu réussir à avoir des données beaucoup plus “fraîches” et pertinentes. 

Depuis, les équipes améliorent et optimisent constamment leur écosystème data afin de toujours pouvoir être à jour avec les nouvelles technologies et donc, permettre aux utilisateurs data de travailler efficacement avec leurs analyses. 

Les défis data d’Air France

Durant la conférence, Éric nous a également présenté les défis data de la firme dans la mise en place d’une stratégie data :

  • Délivrer un écosystème analytics fiable avec des données de qualité,
  • Mettre en place des technologies adaptées pour tous les profils et adaptées pour les cas d’usage de chaque secteur d’activité,
  • Avoir une infrastructure qui supporte tous types de données en temps réel. 

Air France a pu résoudre certaines de ces problématiques grâce à la mise en place d’une architecture robuste (qui a notamment  permis à la firme de pouvoir résister à la crise du COVID-19), ainsi que la mise en place d’équipes dédiées, le déploiement d’applications et la structure de sécurité lié notamment au RGPD et autres réglementations pilotes. 

Cependant, Air France KLM n’a pas fini de travailler pour atteindre ses défis data. Avec des volumes de données qui ne cessent de croître, le nombre d’utilisateurs data et métier qui augmente, la gestion des flux de données à travers les différents canaux de l’entreprise et la gestion des données, c’est un travail de gouvernance constant :

“Il faut toujours qu’on soit au service des métiers, et comme les gens et les tendances changent, il est impératif de faire des efforts continus pour que tout le monde puisse comprendre la donnée.”

air-france-big-data-paris-4

L’architecture data unifiée d’Air France

L’unified data architecture (UDA) est la pierre angulaire d’Air France. Éric nous explique qu’il y a quatre types de plateformes :

La plateforme de data discovery 

Séparée en deux plateformes différentes, elles sont les applications de prédilection des data scientists et citizen data scientists. Elles permettent, entre autres, de :

  • extraire la “connaissance” de la donnée,
  • traiter des données non-structurées, (des textes, des images, des voix, etc.)
  • avoir un support d’analyse prédictive afin de comprendre les comportements des clients

Un data lake 

Le data lake d’Air France est une instance logique et est accessible à tous les employés de l’entreprise, qu’importe le métier. Attention, Eric précise que les données sont bien sécurisées : “Le data lake n’est pas un open bar du tout ! Tout est fait sous le contrôle des data officers et data owners. Le data lake :

  • stocke les données structurées et non-structurées,
  • combine les différentes sources data provenant de métiers variés,
  • permet d’avoir une vision complète d’une situation, un topic ou un environnement data,
  • est très scalable.

Des plateformes “Real Time Data Processing” 

Pour opérer les données, Air France a implémenté 8 plateformes de data processing en temps réel afin de répondre aux besoins de chaque “grand” cas d’usage métier.  Par exemple, ils ont une plateforme pour la maintenance prédictive, la connaissance comportement client, ou encore l’optimisation processus en escale.

Eric nous confirme que lorsqu’un évènement ou aléa survient,  leur plateforme est capable de pousser des recommandations sous la forme de  notifications en “real time” en seulement 10 secondes !

Des Data Warehouses 

Comme précisé ci-dessus, Air France avait également déjà mis en place des data warehouses pour stocker les données externes telles que les données clients, partenaires et les données des systèmes opérationnels.  Ces Data Warehouses permettent encore aux utilisateurs de faire des requêtes sur ces jeux de données en toute sécurité, et sont un excellent vecteur de communication pour expliquer la stratégie data entre les différents métiers de l’entreprise.

air-france-big-data-paris-5

L’intérêt de la mise en place d’une architecture Cloud Hybride

Les questions initiales d’Air France par rapport à la bascule vers le Cloud étaient :

  • Air France KLM vise à standardiser au maximum ses services de calcul et de stockage
  • Toutes les données ne sont pas éligibles à la sortie des locaux d’Air France en raison de réglementations ou de données sensibles
  • Tous les outils déjà exploités dans les plateformes UDA sont disponibles à la fois on-premise et dans le cloud public

Éric soutient qu’une architecture Cloud hybride permettrait à la firme d’avoir plus de souplesse pour répondre aux challenges actuels :

“Mettre notre UDA sur le Cloud publique donnerait une meilleure flexibilité aux métiers et plus d’options en terme de déploiement data.”. 

Selon Air France, voici la check liste des bonnes pratiques à vérifier avant de faire un migration vers le Cloud Hybride:

  • vérifier si la donnée a une bonne raison d’être migrée vers le Cloud public
  • vérifier le niveau de sensibilité de la donnée (selon les politiques de data management internes)
  • vérifier la conformité des directives de mise en œuvre du UDA
  • vérifier les designs des flux de données
  • configurer la bonne connexion réseau
  • pour chaque outil d’implémentation, choisir le bon niveau de service management
  • pour chaque composant, évaluer le niveau de verrouillage et les conditions de sortie
  • monitorer et prévoir les éventuels coûts
  • adopter un modèle de sécurité qui permet la sécurité du Cloud Hybride d’être le plus transparent possible
  • étendre la gouvernance des données sur le Cloud

Air France aujourd’hui, où en sont-ils ? 

Il est évident que la crise du COVID-19 a complètement changé le secteur de l’aviation. Chaque jour, Air France doit prendre le temps de comprendre les nouveaux comportements des passagers et adapter les programmes de vol en temps réel, en accord avec les restrictions de voyage mis en place par les différents gouvernements. D’ici la fin de l’été  2020, Air France aura desservi près de 170 destinations, soit 85% de leur réseau habituel. 

L’architecture data d’Air France a donc été un catalyseur clé pour la reprise de leurs compagnies aériennes :

“un grand bravo à nos utilisateurs métiers (data scientists) qui chaque jour essaient d’optimiser en temps réel les services afin de pouvoir comprendre comment les voyageurs se comportent en pleine crise sanitaire. Même si nous travaillons sur l’intelligence artificielle, l’humain est quand même une ressource essentielle dans le succès d’une stratégie data.” 

Quelle est la différence entre un Data Steward et un Data Owner ?

Quelle est la différence entre un Data Steward et un Data Owner ?

data-steward-vs-data-owner

Quelle est la différence entre des Data Stewards et des Data Owners ? Cette question revient inlassablement !

Vous pourrez sur la toile internet lire différentes définitions associées à la gestion des données et à leur gouvernance. De plus, selon les entreprises, leurs définitions et leurs responsabilités peuvent très largement varier. 

Pour tenter de clarifier la situation, nous proposons à travers cet article de faire un résumé de ces deux profils que nous avons pu rencontrer chez nos clients et d’établir une potentielle complémentarité.

Avant tout, nous croyons fermement qu’il n’existe pas de cadre idyllique ou standard et que ces définitions sont propres à chaque entreprise du fait de leur organisation et de leur “legacy”.

Data owner et data stewards : deux rôles aux maturités différentes

La nomination récente des CDOs a largement été guidée par les transformations digitales entreprises de ces dernières années : maîtriser le cycle de vie de la donnée de sa collecte à son création de valeur. Pour tenter d’y parvenir, un objectif simple – mais pourtant complexe – s’est dessiné : connaître en premier lieu le patrimoine informationnel de l’entreprise bien trop souvent siloté. 

Ainsi, la première étape de nombreux CDOs a été d’aller référencer ces actifs, de les documenter tant sur l’angle business, les traitements qui les ont transformés que les moyens techniques pour les exploiter.

Ce principe fondateur d’une gouvernance des données a également été évoqué par Christina Poirson, CDO du groupe Société Général lors d’une table ronde qui s’est déroulée au Big Data Paris 2020. Elle explique l’importance de connaître son environnement data ainsi que les risques associés pour in fine créer de la valeur.

Lors de son intervention, Christina Poirson a développé les rôles des Data Owners au sein de ce challenge du partage de la connaissance data. Intégrés au métier, ils ont la responsabilité de définir leurs jeux de données, leurs usages ainsi que la qualité associée, sans pour autant mettre en cause le Data Owner :

“la donnée chez nous appartient soit au client, ou à toute l’entreprise, mais pas à une BU ou un département particulier. On réussit à créer de la valeur à partir du moment où les données sont partagées”.  

Vous en conviendrez, les data owners sont des rôles présents depuis plus longtemps dans les organisations que les data stewards. Ce sont des parties prenantes de la collecte, l’accessibilité et la qualité de jeux de données. 

Nous qualifions le Data Owner comme le responsable de la donnée finale. Nous pouvons prendre l’exemple simple d’un directeur marketing, qui pourra entreprendre ce rôle dans la gestion des données clients. Il aura ainsi la responsabilité et le devoir d’en maîtriser sa collecte, sa protection et ses usages.

 La démocratisation des data stewards s’est faite plus récemment, jusqu’à créer des postes dédiés dans les organisations. À l’inverse d’un data owner, propriétaire et responsable de données, celui-ci intervient plus largement dans un challenge, qui re-gagne en popularité depuis quelques temps, la gouvernance des données.

Dans nos articles, “Qui sont les data stewards ?” ou encore “Les multiples facettes du stewards”, nous parlons plus en détails de ce profil impliqué dans le référencement, la documentation des actifs d’entreprise (nous parlons bien évidemment des données) pour en simplifier leur compréhension et leurs usages. 

Data Steward et Data Owner : deux rôles complémentaires ?

Dans les faits, les entreprises n’ont pas toujours les moyens d’ouvrir de nouveaux postes aux data stewards. Dans une organisation idéalisée, la complémentarité de ces profils pourrait tendre vers :  

Un data owner est responsable des données de son périmètre dans sa collecte, sa protection, et sa qualité. La suite serait alors prise par le data steward en charge de rédiger et agréger les informations, les définitions et tout autre besoin de l’entreprise pour simplifier la découverte et la compréhension de ces actifs.

Prenons l’exemple de la qualité d’un jeu de données. Si un problème de qualité des données subvient, il faudrait vous attendre à ce que le data steward souligne les problèmes rencontrés par ses consommateurs au Data Owner chargé alors d’enquêter et proposer les mesures correctives.

Pour illustrer cette complémentarité, Chafika Chettaoui, CDO chez Suez – également présente lors de la table ronde du Big Data Paris 2020 – confirme qu’ils ont ajouté un autre rôle dans leur organisation, celui du Data Steward. Chez eux, le Data Steward est la personne qui s’assure que le flux de données fonctionne. Elle explique :

“Le Data Steward est la personne qui va animer ce qu’on appelle les Data Producers (les personnes qui collectent les données dans les systèmes), s’assurer qu’ils soient bien formés et qu’ils comprennent la qualité et le contexte des données pour créer leurs dashboards de reporting et d’analyses. Pour résumer, c’est un profil métier, mais avec une vraie valence data et une compréhension de la donnée et de sa valeur”. 

Pour conclure, il existe en anglais, deux notions difficiles à traduire dans la langue française qui pourtant font une différence certaine entre ses deux rôles: le data owner est “accountable for data” tandis que le data stewards est “responsible for” l’activité de la donnée au jour le jour.

Comment déployer une gouvernance des données performante et adoptée par tous

Comment déployer une gouvernance des données performante et adoptée par tous

big-data-paris-table-ronde-CDO-1

Il est évident que la COVID-19 a bousculé l’économie et le monde du travail à travers le monde entier. En mars 2020, la France a été mise en confinement total, et de nombreuses entreprises ont dû s’adapter à de nouvelles manières de travailler, que ce soit à travers la mise en place du télétravail, des changements de rythmes de production, ou encore l’arrêt total du fonctionnement de l’organisation. Cette crise sanitaire a donc chamboulé les entreprises : comment faire face aux risques financiers, technologiques, et de conformité suite à la pandémie ?

Au Big Data Paris 2020, nous avons eu le plaisir d’assister à la table ronde “Comment déployer une gouvernance des données performante et adoptée par tous” animée par Christina Poirson, Groupe CDO de la Société Générale, Chafika Chettaoui, CDO du Groupe Suez et Elias Baltassis, Partner & Director, Data & Analytics du Boston Consulting Group. Dans cette table ronde d’environ 35 minutes, les trois experts data nous expliquent l’importance et les “best practices” de la mise en place d’une gouvernance des données. 

Les premières étapes pour implémenter une gouvernance des données

L’impact du COVID-19 n’a pas été sans souligner le défi essentiel de la connaissance, de la collecte, de la conservation et de la transmission de données de qualité. Donc, est-ce que le confinement a poussé les entreprises à vouloir mettre en place une stratégie de gouvernance des données ? Cette première question répondue par Elias Baltassis a confirmé la forte augmentation de demande de mise en place de gouvernance des données en France :

“le confinement a certainement accéléré la demande de mise en place de data governance ! La gouvernance des données était déjà un sujet pour la majorité de ces entreprises bien avant le confinement, mais la crise sanitaire a bien sûr poussé les entreprises à renforcer la sécurité et fiabilité de leur patrimoine de données.”

Mais donc, quel est l’objectif d’une gouvernance des données ? Et par où commencer ? Elias nous explique qu’il faut tout d’abord faire un diagnostique des actifs de données dans l’entreprise, et identifier les points de friction : “Identifiez les endroits dans l’entreprise où il y a une déperdition de valeur à cause de la mauvaise qualité des données. Ceci est important car la gouvernance des données peut facilement dériver vers un exercice bureaucratique, et c’est pour ça qu’il faut toujours garder comme “guide” la valeur créée pour l’organisation, qui se traduit par une meilleure accessibilité, meilleure qualité, etc”. 

Une fois que le diagnostique a été posé et que les sources de valeur sont identifiées, Elias nous explique qu’il y a quatre étapes de méthodologie à suivre :

  1. Connaître les données d’entreprise, leur structure, et à qui elles appartiennent  (via un glossaire de données par exemple),
  2. Mettre en place une politique de données ciblée sur les points de friction,
  3. Choisir le bon outil pour déployer ces politiques à travers l’entreprise
  4. Mettre en place une culture des données au sein de l’organisation en commençant par embaucher des personnes data-driven, telles que des Chief Data Officers. 

La méthodologie ci-dessus est donc primordiale avant de démarrer tout projet de gouvernance des données qui, selon Elias, peut se mettre en place assez rapidement : “la gouvernance des données peut être implémentée rapidement, par contre l’augmentation de la qualité des données va prendre plus ou moins de temps, ça dépend de la complexité de l’entreprise ; une entreprise qui travaille avec un seul pays prendra moins de temps qu’une entreprise travaillant avec toute l’Europe par exemple”. 

big-data-paris-table-ronde-CDO-3

Le rôle du Chief Data Officer dans la mise en place d’une gouvernance des données

Au tour de Christina Poirson, qui explique que pour elle et la Société Générale, la gouvernance des données a joué un rôle très important durant cette période exceptionnelle : “heureusement que nous avions mis en place une gouvernance des données qui a su assurer la qualité et la protection des données durant le confinement à nos clients professionnels et particuliers. Nous avons réalisé l’importance du couple digitalisation et data qui s’est montré vital pour non seulement notre travaille durant la crise, mais également pour les activités de demain”.  

Mais donc, comment est-ce qu’une entreprise aussi grande, ancienne et ayant des milliers de données comme la Société Générale a-t-elle pu mettre en place une nouvelle stratégie de data governance ? Christina nous explique que la donnée au sein de la Société Générale n’est pas un sujet récent. Effectivement, dès la naissance des premières agences, la firme a demandé des informations sur le client afin de pouvoir le conseiller sur quel type de prêt mettre en place par exemple. 

Cependant, la CDO de la Société Générale nous affirme qu’il y a aujourd’hui, avec la digitalisation, de nouveaux types, formats et volumes de données. Elle confirme ce qu’Elias Baltassis disait juste avant : “La mise en place d’un data office et de Chief Data Officers était une des premières étapes dans la stratégie data de l’entreprise. Notre rôle est de maximiser la valeur des données tout en respectant la protection des données sensibles, ce qui est très important dans le monde de la banque !”

Pour faire cela, Christina explique que la Société Générale accompagne cette stratégie tout au long du cycle de la donnée : de sa création jusqu’à sa fin de vie en passant par sa qualification, sa protection, son utilisation, son anonymisation et sa destruction.

De l’autre côté, Chafika Chettaoui, CDO du groupe Suez explique qu’elle se voit en chef d’orchestre :

“ce qui manquait à Suez c’était un chef d’orchestre qui doit organiser comment la technique peut répondre à un objectif métier. Aujourd’hui avec le nombre de données qui augmente, le CDO doit être le chef d’orchestre pour les départements IT, métier, et même ceux du RH et de la communication car la transformation data et digitale est surtout une transformation humaine. Il doit être l’organisateur afin d’assurer la qualité et l’accessibilité des données ainsi que leurs analyses.”

Mais surtout, les deux intervenantes sont d’accord pour dire qu’un CDO ont deux principales missions :

  • La mise en place de différentes normes sur la qualité et protection des données,
  • Doit casser les silos data en créant un langage commun autour de la data , ou la data fluency, dans toute partie de l’entreprise

L’acculturation des données dans l’entreprise

Nous n’avons pas besoin de vous rappeler que la mise en place d’une culture des données au sein de l’entreprise est essentielle pour créer de la valeur avec ses data. Christina Poirson explique que l’acculturation data a été assez longue pour la Société Générale : 

“Pour mettre en place une culture data, nous sommes passés par la cartographie des données à tous les niveaux des structures managériales, du top management au collaborateur. Nous avons également dû mettre en place des sessions de coaching, des formations de coding ou autres sensibilisations dédiées. Nous avons aussi mis à disposition tous les cas d’usage du groupe SG dans un catalogue d’idées qui sert à ce que chaque entreprise du groupe (quel que soit le pays) puisse être inspirée : c’est une bibliothèque de cas d’usage qui est là pour inspirer les gens.” 

Elle continue à expliquer qu’ils ont d’autres manières d’acculturer les employés à la Société Générale :

  • La mise en place de bibliothèque d’algorithmes pour réutiliser ce qui a déjà été mis en place
  • Mise en place d’outils spécifiques pour évaluer si la donnée est conforme aux réglementations
  • Rendre les données accessibles en passant par un catalogue de données du groupe

L’acculturation des données n’était donc pas un long fleuve tranquille pour la société générale. Mais, Christina reste positive et nous raconte une petite analogie :

“la data c’est comme l’eau, des DSI sont les tuyaux, et les métiers font des demandes liées à l’eau. Il doit donc avoir une symbiose entre la DSI, l’IT et les métiers”. 

Chafika Chettaoui ajoute : “Effectivement, il est impératif de travailler avec et pour le métier. Notre travail est de nommer des gens chez les métiers qui vont être responsable de leurs données.  Il faut redonner la responsabilité à chacun : l’IT pour la construction de la maison, et le métier pour ce qu’on met à l’intérieur. En mettant cet équilibre-là, il y a un vrai aller-retour et non pas juste l’IT qui est responsable de tout”.

big-data-paris-table-ronde-CDO-2

Les rôles dans la gouvernance des données

Bien que les rôles et responsabilités varient d’entreprise à entreprise, lors de cette table ronde, les deux Chief Data Officers nous expliquent comment fonctionne l’attribution des rôles au sein de leur stratégie data. 

À la Société Générale ils ont des convictions assez forte. Premièrement, ils mettent en place des “Data Owners”, qui font partie du métier, qui sont responsables de :

  • la définition de la donnée
  • les principaux usages
  • le niveau de qualité associé

Par contre, si un utilisateur data veut utiliser une donnée, il n’a pas à demander la permission du Data Owner, sinon ça crispe tout le système. De ce fait, la Société Générale met des dispositifs qui font qu’ils vérifient le respect des règles et réglementations, sans pour autant mettre en cause le Data Owner : “la donnée chez nous appartient soit au client, ou à toute l’entreprise, mais pas une BU ou département particulier. On réussit à créer de la valeur à partir du moment où les données sont partagées”.  

Chez Suez, Chafika Chettaoui confirme qu’ils ont la même définition du Data Owner, mais il ajoute un autre rôle, celui du Data Steward. À Suez, le Data Steward c’est celui qui est sur place, qui s’assure que le flux de données fonctionne. Elle explique : “Le Data Steward c’est quelqu’un qui va animer ce qu’on appelle les Data Producers (les personnes qui collectent les données dans les systèmes), s’assurer qu’ils soient bien formés et qu’ils comprennent la qualité des données, et celui qui vont tenir les dashboards de reporting et analyser s’il y a des incohérences. C’est quelqu’un du métier, mais avec une vraie valence data et une compréhension de la donnée ainsi que de sa valeur”. 

Quelles sont les bonnes pratiques essentielles pour la mise en place d’une gouvernance des données ?

Ce qu’il ne faut jamais oublier dans l’implémentation d’une gouvernance des données c’est de se rappeler qu’une donnée n’appartient pas à une seule partie de l’organisation mais doit être partagée. Il est donc impératif de normer la donnée. Pour cela, Christina Poirson nous explique l’importance d’un dictionnaire des données : “en ajoutant un dictionnaire des données incluant le nom, la définition, le data owner, et le niveau de qualité de la donnée, vous avez déjà une première brique dans votre gouvernance”. 

Comme mentionné ci-dessus, la deuxième bonne pratique de la data governance c’est de définir des rôles et responsabilités autour des données. En plus d’un Data Owner ou Data Steward, il est essentiel de définir une série de rôles pour accompagner à chaque étape clé de l’utilisation des données. Certains de ces rôles peuvent être :

  • Data Quality Manager
  • Data Protection Analyst
  • Data Usages Analyst 
  • Data Analyst
  • Data Scientist
  • Data Protection Officer
  • etc

Pour une dernière recommandation de bonne pratique pour une gouvernance des données réussie, Christina Poirson nous explique l’importance de connaître son environnement data ainsi que de connaître son appétence aux risques, les règles de chaque métier, industrie et service pour réellement faciliter l’accessibilité aux données et le respect des lois. 

 

…et les erreurs à éviter ?

Pour finir la table ronde, Chafika Chettaoui nous parle des erreurs à éviter pour réussir sa gouvernance. Selon elle, il ne faut surtout pas commencer par la technologie. Même si évidemment, la technique et l’expertise sont essentielles à une mise en oeuvre d’une gouvernance des données, il est très important de se concentrer tout d’abord sur la culture de l’entreprise. 

Chafika Chettaoui affirme : “Mettre en place une culture des données avec des formations est essentielle. D’un côté il faut casser le mythe que les données et l’IA sont “magiques”, et d’un autre côté casser le mythe de “l’intuition” de certains experts, en expliquant l’importance des données dans l’entreprise. L’aspect culturel est clé, et à tout niveau de l’organisation. ” 

Retail 4.0 : Comment Monoprix a migré sur le cloud

Retail 4.0 : Comment Monoprix a migré sur le cloud

monoprix

Leader omni-canal du centre-ville avec une présence dans plus de 250 villes en France, Monoprix offre chaque jour des produits et services innovants et variés avec un seul objectif en tête : “rendre le beau et le bon accessible à tous”. 

En effet, Monoprix en 2020 c’est :

  • Près de 590 magasins en France,
  • 22 000 collaborateurs,
  • Environ 100 magasins à l’international,
  • 800 000 clients par jour,
  • 466 producteurs partenaires locaux.

Avec près d’un million de clients en physique et plus de 1,5 million de visiteurs sur leur site web chaque jour, il est clair que Monoprix fait face à de milliers de données à gérer ! Que celles-ci proviennent des cartes de fidélité, tickets clients ou de commandes de livraisons en ligne, la firme doit donc gérer un nombre colossal de data de formats variés. 

Au Big Data Paris 2020, Damien Pichot, Directeur des Opérations et des Flux Marchandises chez Monoprix, nous a partagé le parcours de la firme dans leur mise en place d’une culture data-driven grâce au Cloud.  

big-data-paris-monoprix-1

Le Big Data au sein de Monoprix

En réponse du nombre de données qui arrivaient chaque jour dans les systèmes data de Monoprix, l’entreprise avait mis en place différentes technologies : un data warehouse on-premise pour les données structurées et un data lake dans le Cloud, qui servait à gérer les données semi-structurées de leurs sites web. De plus, beaucoup de données proviennent également de partenaires ou prestataires dans le cadre d’échanges et d’acquisitions d’informations.

Malgré que l’architecture ait bien fonctionné et tenu son rôle pendant de nombreuses années, elle commençait à montrer ses limites et ses faiblesses : 

“Pour vous donner une illustration, chaque lundi par nos métiers, nous analysons le chiffre d’affaire et tout ce qui s’est passé la semaine précédente. Au fur et à mesure du temps, nous nous sommes aperçus que chaque semaine le nombre d’utilisateurs qui se connectait sur nos systèmes d’informations augmentait et on arrivait à saturation. En réponse, certains de nos collaborateurs se levaient à 5h du matin pour lancer leur requête pour ensuite se recoucher, et récupérer celle-ci en fin de matinée voire début d’après-midi !” explique Damien Pichot. 

Une autre point négatif de la structure IT de la firme, concernait les utilisateurs métier et plus précisément ceux du marketing. Ils commençaient à développer des environnement analytiques en dehors du contrôle de la DSI, créant donc ce qu’on appelle le “shadow IT”.  Les équipes data de Monoprix  étaient bien évidemment insatisfaites car elles n’avaient aucune supervision sur les projets métiers. 

“La DSI représentée au sein de Monoprix  n’était donc pas au service des métiers et ne répondait pas à ses attentes.” 

Après avoir consulté son comité IT, ils ont  ensemble décidé de faire une rupture avec leur grande structure on-premise. La nouvelle solution devait donc répondre à quatre questions :

  1. Est-ce que la solution redonne la main aux métiers pour qu’ils soient autonomes
  2. Le service est-il performant / résilient ?
  3. La solution permettra-t-elle de baisser les coûts de fonctionnement ?
  4. Aura-t-on accès à une plateforme unique qui permettra de mutualiser toutes les données issues du data warehouse et du data lake afin de répondre aux enjeux business, décisionnels, machine learning et data science ? 

Après réflexion, Monoprix a  finalement pris la décision de tout migrer vers le Cloud ! “Même si nous avions opté pour une autre grosse solution on-prem, nous aurions été confrontés aux mêmes problèmes à un moment où un autre. On aurait peut être gagné deux ans mais ce n’est pas viable sur le long terme.” 

Le parcours de Monoprix dans le Cloud

Monoprix a donc démarré cette nouvelle aventure dans le Cloud avec Snowflake ! Seulement quelques mois après son implémentation, Monoprix s’est très vite rendu compte  des améliorations de performance comparées à leur ancienne architecture. Snowflake a également su répondre à leurs besoins en matière de partage des données, chose qu’ils avaient du mal à faire auparavant, en robustesse et en disponibilité de la donnée.

Les premières étapes

Lors de sa conférence, Damien Pichot a expliqué que cela n’était pas facile de convaincre les équipes de Monoprix qu’une migration dans le Cloud était sécurisé. Ils ont pu être rassurés avec la mise en place de Snowflake, qui implémente un niveau de sécurité aussi important que celui de l’industrie pharmaceutique et bancaire aux États Unis. 

Pour se donner tous les moyens possibles pour réussir ce projet, Monoprix a décidé de créer une équipe dédiée, constituée de nombreuses personnes  telles que des responsables projet, des intégrateurs, des responsables d’applications spécifiques, etc. C’est en Mars 2019 que le lancement du projet commence officiellement. Damien Pichot avait organisé un kickoff en invitant tous les métiers de l’entreprise : “Je ne voulais pas que ce soit un projet informatique mais un projet d’entreprise, je suis convaincue que ce projet devait être porté par les métiers et fait pour les métiers”. 

Damien nous confie que la veille du lancement du projet, il avait du mal à dormir ! En effet, Monoprix est la première entreprise française à se lancer dans la migration totale d’un data warehouse on-premise vers le Cloud ! 

big-data-paris-monoprix-2

Les complications du projet 

La migration s’est faite de façon itérative, du fait d’un fort legacy technique, pour tout réintégrer dans une technologie aussi moderne que Snowflake. En effet, Monoprix avait eu des gros soucis avec les connecteurs : “Nous pensions à l’époque que le plus dur du projet serait d’automatiser les traitements. Or, le plus compliqué a été de re-platformer nos ETL sur un nouvel environnement. On est donc passé d’un projet de 12 mois à 15 mois.”

La nouvelle architecture 

Monoprix traite donc deux formats de données : les données structurées et les semi-structurées. Les données structurées qui concernaient leur datawarehouse classique, donc les données provenant du Supply Chain, Marketing, transactions clients, etc. Et les semi-structurées qui provenaient d’évènements liés aux sites web. Tout ça maintenant est convergé via les ETL dans une plateforme unique qui tourne sur Azure avec Snowflake. “Grâce à cette nouvelle architecture dans le Cloud nous pouvons attaquer les données comme nous le souhaitons via différentes applications” dit Damien.

big-data-paris-monoprix-3

Conclusion : Monoprix est mieux dans le Cloud

Cela fait depuis le mois de mai 2020 que Monoprix gère ses données dans le Cloud, et c’est “que du plus”. Côté métier, il y a moins de latence, les requêtes qui prenaient des heures durent maintenant des minutes, (et les employés dorment enfin le matin !). Les analyses du métier sont également beaucoup plus profondes avec la possibilité de faire des analyses sur cinq ans, ce qui n’était pas possible avec l’ancienne structure IT. Mais le point le plus important est la facilitation de partager des données plus facilement (data sharing en anglais) avec les partenaires et prestataires de la firme, en autres.

Damien nous explique fièrement.  “Avec l’ancienne structure, nos équipes marketing mettaient 15 jours à préparer les données et devaient envoyer des milliers de fichiers à nos prestataires, aujourd’hui ils se connectent en une minute et ils vont chercher les données seuls, sans que nous devons intervenir. Rien que ça, c’est un ROI direct. 

Les solutions de Data Management les plus populaires en 2020

Les solutions de Data Management les plus populaires en 2020

data-management-solutions-2020

Suite à la publication de divers articles de Gartner et d’autres célèbres cabinets data traitant de data catalogs, il est aujourd’hui évident que ces solutions sont devenues essentielles dans la stratégie de gestion des données d’une entreprise. Combinant l’intelligence artificielle et les compétences humaines, les data catalogs offrent un espace de travail “next-gen” permettant aux équipes chargées des données de trouver, comprendre et collaborer sur leurs actifs d’informations. 

Dans cet article, nous nous concentrerons sur les solutions de data management les plus utilisées auxquelles votre entreprise peut collaborer avec succès grâce à votre data catalog. Ces fournisseurs ont été cités à plusieurs reprises par Gartner et utilisés par de nombreuses entreprises dans le monde entier. Nous listerons les 5 principaux fournisseurs dans les catégories suivantes :

  • Intégration des données
  • Préparation des données
  • Visualisation des données
  • Gouvernance des données

Découvrons cette liste ensemble :

1. Principaux fournisseurs d’intégration de données

L’intégration des données est le processus qui consiste à combiner des données provenant de différentes sources, généralement à des fins d’analyse, de business intelligence, de reporting, etc. Les outils d’intégration de données doivent être conçus pour transformer, cartographier et nettoyer les données. Ils peuvent également être intégrés à des outils de gouvernance et de qualité des données.

Parmi les principaux fournisseurs d’intégration de données de 2020 figurent :

logo-informatica

Le portfolio d’outils d’intégration de données d’Informatica comprend des déploiements sur site et dans le Cloud. Le fournisseur combine des fonctionnalités d’intégration et de gouvernance hybrides avancées avec un accès business en libre-service pour diverses fonctions analytiques. Informatica prône une forte interopérabilité entre sa liste croissante de logiciels de data management.

IBM-logo

IBM propose plusieurs outils d’intégration de données distincts, également pour les déploiements on-prem et dans le Cloud, et pour pratiquement tous les cas d’utilisation en entreprise. Sa suite d’intégration de données on-prem comprend des outils pour les besoins d’intégration traditionnels et modernes. IBM propose également une variété de fonctions et de connecteurs pré-établis. Le produit d’intégration dans le Cloud du méga-fournisseur est largement considéré comme l’un des meilleurs du marché, et des fonctionnalités supplémentaires sont prévues dans les mois à venir.

SAS_logo

SAS est l’un des plus grands fournisseurs indépendants sur le marché des outils d’intégration de données. Le fournisseur offre ses principales capacités via SAS Data Management, où les outils d’intégration de données et de qualité sont imbriqués. Il comprend la prise en charge du langage de requête, l’intégration des métadonnées, le traitement des bases de données en mode « push-down » et diverses capacités d’optimisation. 

SAP-Logo

SAP fournit des fonctionnalités d’intégration on-prem et Cloud. Les fonctionnalités traditionnelles sont proposées par SAP Data Services, une plateforme de gestion de données qui offre des possibilités d’intégration, de qualité et de nettoyage des données. Les fonctionnalités d’intégration “Platform as a Service” sont disponibles par le biais de la plateforme SAP Cloud.

oracle-logo

Oracle offre un éventail complet d’outils d’intégration de données pour les cas d’utilisation traditionnels comme pour les cas modernes, dans les déploiements on-prem et dans le Cloud. Le portfolio de produits de la société comprend des technologies et des services qui permettent aux organisations de déplacer et d’enrichir les données tout au long de leur cycle de vie. 

2. Principaux fournisseurs de data preparation

Comme défini dans notre dernier article sur la data preparation, il s’agit du processus de collecte, de combinaison, de structuration et d’organisation des données afin qu’elles puissent être analysées dans le cadre d’applications de visualisation, d’analyse et d’apprentissage automatique des données. En d’autres termes, c’est le processus de nettoyage et de transformation des données brutes avant leur analyse.

Parmi les principaux fournisseurs de préparation de données de 2020 figurent:

Alteryx-logo

Alteryx Designer présente une interface utilisateur intuitive qui permet aux utilisateurs de se connecter et de nettoyer les données provenant de divers data warehouses, d’applications dans le Cloud, de tableurs, etc. Les utilisateurs peuvent également utiliser des fonctions de qualité, d’intégration et de transformation data. 

talend-logo

Talend Data Preparation utilise des algorithmes de machine learning pour la standardisation, le nettoyage et la reconnaissance de modèles. L’outil fournit également des recommandations automatisées pour guider les utilisateurs tout au long du processus de la data preparation

IBM-logo

IBM Watson Machine Learning et IBM Watson Studio constituent une plateforme de data science et de machine learning, conçue pour les entreprises utilisant l’intelligence artificielle. Elle aide les entreprises à dimensionner les opérations de data science tout au long du cycle de vie, en simplifiant le processus de l’expérimentation au déploiement, en accélérant l’exploration et la data preparation, ainsi que le développement de modèles et la formation de l’outil.

IBM-logo

Tableau Prep permet à un plus grand nombre de personnes d’accéder plus rapidement à l’analyse en les aidant à combiner, façonner et nettoyer leurs données rapidement et en toute confiance. Une expérience directe et visuelle permet aux clients de mieux comprendre leurs données. Les fonctions intelligentes de la solution facilitent également la data preparation.

Trifacta-Logo-Vert-RGB-2016-e1473200499615

Trifacta a été classé comme le premier fournisseur dans tous les rapports data preparation publiés à ce jour ! Outil de data prep en libre-service, Trifacta permet à tous les utilisateurs, techniques ou non, de nettoyer et de préparer leurs données efficacement. 

3. Principaux fournisseurs de data visualisation

La data visualisation est définie comme une représentation graphique des données. Elle est utilisée pour aider les individus à comprendre le contexte et la signification de leurs informations en montrant des modèles, des tendances et des corrélations qui peuvent être difficiles à interpréter sous forme de texte simple.

Parmi les principaux fournisseurs de visualisation de données de l’année 2020 figurent :

Trifacta-Logo-Vert-RGB-2016-e1473200499615

Tableau est un outil de data visualisation qui peut être utilisé par les data analysts, les data scientists, les statisticiens, etc. pour visualiser les données et obtenir une opinion claire basée sur leur analyse. Tableau est connu pour être capable d’intégrer des données et de produire les résultats de visualisation de données en très peu de temps, tout en offrant le plus haut niveau de sécurité.  Tableau garantit le traitement des problèmes de sécurité dès qu’ils surviennent ou sont trouvés par les utilisateurs.

Logo_Color_Looker

La data visualisation de Looker peut approfondir les données et les analyser pour obtenir des informations utiles. Elle fournit des tableaux de bord en temps réel pour une analyse plus approfondie afin que les entreprises puissent prendre des décisions instantanées sur la base des visualisations de données obtenues. Looker offre également des connexions avec Redshift, Snowflake, BigQuery, ainsi qu’avec plus de 50 langages supportés par SQL afin que vous puissiez vous connecter à plusieurs bases de données sans aucun problème.

zoho-analytics-logo

Zoho Analytics vous aide à créer en quelques minutes de magnifiques tableaux de visualisation de données. Vous pouvez obtenir des données provenant de plusieurs sources et les relier entre elles pour créer des data visualisations multidimensionnelles qui vous permettent de visualiser vos données d’entreprise dans tous les services. Si vous avez des questions, vous pouvez utiliser Zia qui est un assistant intelligent créé grâce à l’intelligence artificielle, au machine learning et au traitement du langage naturel.

sisense-logo

Sisense fournit divers outils qui permettent aux data analysts de simplifier les données complexes et d’obtenir des informations pour leur organisation et pour les utilisateurs externes. La solution fournit divers outils d’analyse data aux équipes business et aux data analysts afin qu’ils puissent aider leur entreprise à devenir data-driven.

IBM-logo

IBM Cognos Analytics est une plateforme de business intelligence basée sur l’IA. Vous pouvez visualiser et analyser vos données ainsi que partager des informations exploitables avec tous les membres de votre organisation. Même si vous n’avez que peu ou pas de connaissances en matière d’analyse de données, vous pouvez aisément utiliser IBM Cognos Analytics car il interprète les données pour vous et vous présente des informations exploitables dans un langage simple.

4. Principaux fournisseurs de gouvernance des données

Nous aimons définir la gouvernance des données comme un exercice de l’autorité sur le pouvoir de décision (planification, surveillance et application des règles) et les contrôles de la gestion des données.

En d’autres termes, elle permet de documenter clairement les différents rôles et responsabilités data, ainsi que de déterminer les procédures et les outils qui soutiennent la gestion des données au sein d’une organisation.

cloudera_logo_darkorange

Cloudera Data Platform (CDP) combine des technologies de Hortonworks et de Cloudera pour offrir le premier “Data Cloud” d’entreprise. CDP fournit des analyses en libre-service puissantes dans des environnements hybrides et multi-clouds, ainsi que des politiques de sécurité et de gouvernance sophistiquées et granulaires que les responsables informatiques et de données exigent.

logo-stealthbits

La solution Data Access Governance de Stealthbits découvre où se trouvent vos données, puis les classe, les surveille et remédie aux conditions qui rendent la gestion de l’accès aux données si difficile. Il en résulte une gouvernance efficace qui favorise la sécurité, la conformité et l’efficacité opérationnelle.

Varonis_Logo_FullColor_RGB

Varonis vous donne la visibilité dont vous avez besoin à l’échelle de l’entreprise pour une découverte, un audit et un rapport de conformité efficaces et cela dans un large éventail de normes réglementaires. Il permet de classer rapidement et précisément les informations, sensibles et réglementées, stockées dans les Datastores du Cloud. Son moteur de classification hiérarchise les analyses en fonction du risque et de l’exposition pour vous donner rapidement des résultats exploitables, quelle que soit la quantité de données dont vous disposez.

logo-informatica-12

Informatica fournit une solution rapide pour la conformité et la gouvernance des données, qui peut être mise en œuvre on-prem ou dans le Cloud. Elle offre une visualisation puissante du lineage et de l’historique des données, des tableaux de bord de données de référence (pour une surveillance proactive de la qualité des données) et un masquage dynamique pour la sécurité des données. Il offre également des fonctionnalités permettant de détecter et de protéger les données sensibles des clients, de gérer les risques liés aux données GDPR et de s’assurer que les informations de contact sont à jour, précises et complètes.

Et le nouvel arrivant sur la gouvernance des données

zeenea logo

Notre data catalog centralise toutes les connaissances sur les données dans une interface unique et facile à utiliser. Automatiquement importés, générés ou ajoutés par l’administrateur, les spécialistes data sont en mesure d’enrichir la documentation de leur patrimoine de données directement au sein de notre outil.

Donnez du sens à vos données grâce aux métadonnées !

Si vous souhaitez obtenir plus d’informations, bénéficier d’une démonstration personnalisée gratuite, ou simplement nous dire bonjour, n’hésitez pas à contacter notre équipe qui vous répondra dès réception de votre demande 🙂

Les principaux rôles pour une équipe data et analytics

Les principaux rôles pour une équipe data et analytics

data-team

 Comme mentionné à plusieurs reprises, la transformation digitale ne peut pas se faire sans la data et analytics. La technologie peut être un point d’échec si elle n’est pas gérée correctement, mais elle n’est souvent pas l’obstacle le plus important !

Selon le sondage annuel “Chief Data Officer”de Gartner, les principaux obstacles sont liés à des facteurs humains – la culture, la data literacy et les compétences requises. Une tendance similaire se dégage d’une autre étude, l’enquête de Gartner “CEO and Senior Business Executive Survey”, où la « gestion des talents » était citée comme la « première compétence organisationnelle à développer ou à améliorer ».

Dans cet article, nous aimerions nous concentrer sur les rôles et dirigeants data et analytics qui sont essentiels pour les entreprises souhaitant devenir data-driven.

Rôles de support

 

Chief Data Officer

Le Chief Data Officer, ou CDO, est chargé d’améliorer la qualité, la fiabilité et l’accès aux données. Il est également chargé de créer de la valeur à partir de son patrimoine de données et de son écosystème data de manière générale. En exploitant ses données, le CDO peut produire plus de valeur et donc, permettre à l’entreprise de prendre de meilleures décisions. Il existe de nombreuses variantes du titre telles que CAO (Chief Analytics Officer), CDAO (Chief Data & Analytics Officer), CDIO (Chief Digital Information Officer), etc.

Pour en savoir plus, consultez notre article « Qu’est-ce qu’un Chief Data Officer ?

 

Data et analytics manager

Comme son nom l’indique, le data et analytics manager est chargé de gérer les données d’entreprise ainsi que leurs analyses. Il est également responsable de la mise en place dans toute l’organisation. Il contribue de manière essentielle à la stratégie et à la vision du département data, il établit la feuille de route et est responsable de la planification du budget et des ressources data. Outre la mesure des performances de leur équipe d’analyse, ils sont également chargés de suivre la contribution de l’analyse des données par rapport aux objectifs business.

 

Data Architect

Le Data Architect, également appelé Information Architect, rend les données disponible et les partage dans toute l’entreprise en présentant la manière dont ces actifs pilotent les résultats commerciaux. Il « possède » les modèles de données, comprend l’impact des différents scénarios d’analyse des données sur l’architecture informatique globale (comme la data science ou le machine learning) et travaille en collaboration avec le département business.

 

Analystes

Il n’y a pas un seul type d’analyste, mais plutôt un spectre d’analystes. Leurs rôles dépendent de leurs cas d’utilisation et varient en fonction des responsabilités et des compétences requises. Il y a les data analysts, qui ont une compréhension fondamentale de l’analyse statistique. Ils sont – ou travaillent en étroite collaboration avec – des experts pour soutenir les différents départements, processus ou fonctions de l’entreprise.

 

Chef de projet

Le chef de projet est responsable de la bonne mise en œuvre de tous les projets du portefeuille de l’entreprise. Il planifie, exécute et livre les projets en accord avec les professionnels de l’entreprise. Tout au long du cycle de vie du projet, le chef de projet suit l’état d’avancement du projet et gère ses équipes afin de limiter les risques. Il est le principal point de contact pour les initiatives data et analytics.

Rôles data

 

Data Engineer

Un data engineer implique une collaboration entre les unités business et informatiques et consiste à rendre les données accessibles et disponibles aux différents consommateurs de données (data scientists, data analysts, etc.). Il est principalement responsable de la construction, de la gestion et de l’opérationnalisation des data pipelines. Il est également chargé de diriger des tâches fastidieuses telle que la conservation de jeux de données créés par des utilisateurs non techniques (au moyen d’outils de data preparation par exemple).

Sans data engineers, les initiatives data et analytics sont plus coûteuses, prennent plus de temps à déployer et sont sujettes à des problèmes de qualité et de disponibilité des données.

Data Steward

Les data stewards sont là pour orchestrer les données des systèmes data de l’entreprise. Ils doivent assurer la bonne documentation des données et faciliter leur mise à disposition auprès de leurs utilisateurs, tels que les data scientists ou chefs de projets par exemple. Leurs compétences de communiquant leur permettent d’identifier les responsables et sachants des données, de récolter les informations associées pour les centraliser et pérenniser ces connaissances au sein de l’entreprise. Plus précisément, les data stewards renseignent des métadonnées ; un ensemble structuré d’informations décrivant un jeu de données. Ils transforment ces données abstraites en assets concrets pour le métier.

>> Pour plus d’informations sur les Data Stewards <<

 

Rôles analytiques

 

Data Scientist

Un data scientist est chargé de modéliser les processus business et de faire des constats à l’aide d’algorithmes statistiques et de techniques de visualisation. Il est généralement titulaire d’un diplôme d’études supérieures en informatique, en statistiques ou dans d’autres domaines connexes. Les data scientists contribuent à la construction et au développement de l’infrastructure data de l’entreprise et soutiennent l’organisation par leurs analyses pour une meilleure prise de décision. Ils prédisent ou classifient les informations afin de développer de meilleurs modèles.

 

Citizen Data Scientist

Contrairement aux data scientists, un “citizen data scientist” n’est pas un poste. Il s’agit d’un “power user” qui peut effectuer des tâches analytiques simples. Le citizen data scientist est un rôle qui a évolué comme une “extension” d’autres rôles au sein de l’organisation. Le potentiel des citizen data scientists varie en fonction de leurs compétences et de leur intérêt pour la data science et du machine learning.

>> Pour plus d’informations sur les citizen data scientists <<

 

Développeur d’IA / ML

Les développeurs de machine learning et d’intelligence artificielle sont de plus en plus responsables de l’enrichissement des applications par l’utilisation de machine learning ou d’autres technologies d’IA telles que le traitement du langage naturel, l’optimisation ou la reconnaissance d’images. Ils intègrent et déploient des modèles d’IA développés par des data scientists ou d’autres experts en IA, soit proposés par des fournisseurs de services, soit développés par eux-mêmes. Parmi les autres compétences clés, se trouvent l’identification et la connexion de data assets potentiels, la qualité, la préparation data et la manière dont les données sont utilisées pour l’exécution de modèles.

 

Conclusion

L’importance croissante et la signification stratégique des données et de l’analyse créent de nouveaux défis pour les organisations et leurs responsables data et analytics. Certains rôles informatiques traditionnels sont perturbés par des rôles de « citoyen » exercés par des utilisateurs business non techniques. D’autres nouveaux rôles hybrides apparaissent, qui recoupent les fonctions et les départements et combinent les compétences informatiques et business.

En réunissant ces rôles incontournables, votre entreprise fait un pas de plus vers une organisation data-driven.

Data management : son futur est dans le Cloud

Data management : son futur est dans le Cloud

Les initiatives business de ces dernières années – nous faisons là bien évidemment référence aux transformations digitales – sont confrontées à une explosion du volume et de la diversité des données. Dans ce contexte, les organisations recherchent davantage de flexibilité et d’agilité dans la gestion de leurs données.

Elles semblent l’avoir trouvé dans des stratégies cloud.

Définition de Data Management

Avant de commencer, définissons ce qu’est la gestion des données et son objectif. Le data management, tel que le décrit TechTarget, est « le processus d’ingestion, de stockage, d’organisation et de maintenance des données créées et collectées par une organisation« . La gestion des données est un élément crucial de la stratégie commerciale et informatique d’une entreprise, et se veut de fournir une aide analytique qui oriente la prise de décision globale des dirigeants.

Comme mentionné ci-dessus, les données sont considérées comme un actif de l’entreprise qui peut être utilisé pour prendre de meilleures décisions plus rapidement, améliorer les campagnes de marketing, augmenter les recettes et les bénéfices globaux et, surtout, innover.

Les futures architectures Cloud du data management

Tout comme nous, vous avez certainement constaté que les hébergements cloud devenaient les technologies par défaut pour la gestion des bases de données de la plupart des fournisseurs. Pourquoi ? Cette technologie semble offrir des avantages indéniables aux équipes de data management :


Un déploiement plus rentable : Une plus grande flexibilité et une configuration plus rapide de leur base de données.
Des dépenses basées sur la consommation : Payez ce que vous utilisez et ne surprovisionnez pas.
Une maintenance plus simple : meilleure maîtrise des coûts et des investissements associés dans le temps. 

En sachant cela, les responsables des données sont de plus en plus nombreux à percevoir le cloud comme une technologie moins coûteuse et scalable, motivant encore plus leur choix.

Dans les années, voire, les mois à venir, le cloud fera partie intégrante du paysage informatique. Toutefois, nous sommes convaincus que le rythme auquel les entreprises migreront vers le cloud variera en fonction de leur taille. Ainsi, les petites et moyennes entreprises migreront plus rapidement, tandis que les grandes entreprises mettront des mois, voire des années, à migrer du fait de leur legacy et des dépendances technologiques …

Cette nouvelle technologie au sein des départements de data management se manifestera sous 3 stratégies principales :

  • Le cloud hybride : Composé de deux ou plusieurs infrastructures Cloud distinctes qui peuvent être privées ou publiques et qui restent des entités uniques 
  • Multicloud : Utiliser l’infrastructure venant de plus d’un fournisseur de services dans le cloud ainsi que des solutions on-premise.
Cloud data-management (1)

Le Cloud devient également une opportunité pour les leaders de l’analyse de données

L’adoption accrue de déploiements de stratégies cloud concernant le data management a des impacts importants pour les stratégies d’analyse des données. Les données se déplaçant vers le cloud, les applications de données et d’analyse utilisées doivent également suivre.

En effet, l’accent mis sur la rapidité de livraison de la valeur a fait des technologies cloud le premier choix pour le développement de nouvelles solutions de gestion et d’analyse des données par les fournisseurs, et pour le déploiement pour les entreprises. Ainsi, les entreprises et les leaders du secteur des données choisiront des solutions de gestion des données nouvelle génération, en version SaaS. Ils migreront leurs actifs en sélectionnant des applications qui se connectent aux futures stratégies cloud et en préparant leurs équipes et leur budget pour les défis à venir qu’ils vont devoir mettre en place.

Les leaders du secteur des données qui utilisent des solutions d’analyse, de business intelligence (BI) et de science des données voient les solutions Cloud comme de plus grandes opportunités pour :

  • Utiliser un environnement de « sandbox » dans le cloud à des fins d’essai en termes d’intégration, d’utilisation, et de connectivité, et créer un environnement d’analyse de prototypage avant d’acheter la solution.
  • Faciliter l’accès aux applications où que vous soyez et améliorer la collaboration des équipes, peu importe où elles se situent.
  • Accéder facilement aux nouvelles fonctionnalités émergentes au fil du temps, grâce à des approches de livraison continue.
  • Soutenir leurs efforts grâce à l’élasticité et à l’évolutivité du cloud tout au long du processus d’analyse des données.

Les data catalogs (ou catalogues de données) sont les nouvelles solutions indispensables des stratégies de data management

Les leaders data s’engagent inévitablement dans le cloud. Or, la gestion, la gouvernance et l’intégration des données vont devenir plus complexes que jamais. Ainsi, les organisations doivent s’équiper de nouvelles solutions de gestion des métadonnées pour faciliter la recherche et l’inventaire des données distribuées dans un écosystème hybride et multi-cloud.  Faute de quoi, les silos de données se multiplieront, ce qui entraînera le déraillement de projets de gestion, d’analyse ou de data science.

Les équipes de data management seront amenées à choisir un data catalog parmi le large éventail de ceux disponibles sur le marché.

Nous aimons définir un catalogue de données comme un moyen de créer et de maintenir un inventaire des actifs de données par la découverte, la description et l’organisation d’ensembles de données distribués.

Si vous-même travaillez sur le projet de catalogue de données, vous trouverez :

  • d’une part par des acteurs assez anciens, initialement positionnés sur le marché de la gouvernance des données.
    Ces acteurs proposent sur place des solutions avec des offres riches mais complexes, dont le déploiement et la maintenance sont coûteux, difficiles et longs, et qui sont conçues pour des équipes de gouvernance transversales. Leur proposition de valeur est axée sur le contrôle, la gestion des risques et la conformité.

  • d’autre part par les fournisseurs d’infrastructures de données (Amazon, Google, Microsoft, Cloudera, etc.) ou de solutions de traitement de données (Tableau, Talend, Qlik, etc.), pour lesquels la gestion des métadonnées est un bloc essentiel pour compléter leur offre. Elles proposent des solutions beaucoup plus pragmatiques (et moins coûteuses), mais sont souvent très techniques et limitées à leur écosystème.

Nous considérons que ces alternatives ne sont pas suffisantes. Voici quelques indications essentielles pour trouver votre futur data catalog. Celui-ci doit :

– être hébergé dans le cloud, permettant des prix plus compétitifs et un retour sur investissement rapide pour votre organisation.

– disposer d’une connectivité universelle, s’adaptant à tous les systèmes et à toutes les stratégies de données (edge, cloud, multi-cloud, cross-cloud, hybride).

– avoir l’automatisation comme caractéristique fondamentale pour la collecte et l’enrichissement des données ainsi que de leurs attributs et liens afin d’enrichir le catalogue et maintenir un référentiel d’informations fiable.
Les mécanismes d’alimentation automatique, ainsi que les algorithmes de suggestion et de correction, réduisent le coût global du catalogue et garantissent la qualité des informations qu’il contient.

– proposer des solutions basées sur l’expérience utilisateur, en particulier pour les utilisateurs dits “métier”, afin d’améliorer l’adoption de la solution.

Cloud data management -2

Pour conclure, les capacités de data management sont de plus en plus souvent orientées cloud, et dans certains cas même principalement dans le cloud.

Les responsables des données souhaitant stimuler l’innovation dans le domaine de l’analyse des données devront tirer parti de cette nouvelle technologie sur leurs ressources de données. Ils devront passer de l’ingestion à la transformation sans oublier d’investir dans un catalogue de données efficace afin de trouver leur chemin dans un monde data toujours plus complexe.

Les règles du Data Ops pour éviter le Data Oops !

Les règles du Data Ops pour éviter le Data Oops !

Le Data Ops est une nouvelle manière d’adresser le déploiement de solutions data et d’analyse.

Le succès de cette méthodologie repose sur des techniques favorisant des livraisons plus rapides, plus souples et plus fiables des données. Pour tenir la promesse, prenez un temps pour analyser cette phrase : « non seulement il doit y avoir une mise en place de bons systèmes, mais également une bonne mise en place de ces systèmes. ».

Dans un monde se transformant autour de la donnée, les latences dans les produits data ou leur analyses ne sont plus acceptables.

L’organisation dans son ensemble doit être mise à contribution pour favoriser les déploiements et l’amélioration des projets de données et d’analyse !

 

Data Oops définition

Le concept de DataOps est apparu en réaction aux défis de systèmes de données défaillants, des mises en œuvre de projets data ratés, mais également la fragilité, les frictions ou même la peur, lorsqu’il s’agit de l’usage des données. Si vous vivez cette situation alors ne cherchez pas trop loin… Vous êtes en plein Data Oops !

Dans ce contexte de Data Oops, vous conviendrez que vos équipes data peinent à atteindre une vitesse et une fiabilité de réalisation des projets dirigés.

Les raisons principales sont très souvent que les entreprises possèdent trop de rôles, trop de complexité et des exigences ou objectifs en constante évolution rendant la tâche difficile à cadrer et donc à livrer.

Cette complexité est exacerbée par le manque de confiance dans les données allant même jusqu’à les “craindre”. Cela se produit lorsque nous observons une coordination limitée ou incohérente entre les différents rôles impliqués dans la construction, le déploiement et la maintenance des flux de données. Et, nous sommes persuadés qu’une organisation qui ne connaît pas ses données sera condamnée à l’échec…

 

Comment réussir un DataOps ?

En clair, le DataOps est donc une pratique collaborative de gestion des données qui vise à améliorer la communication, l’intégration et l’automatisation des flux de données entre les gestionnaires et les consommateurs de données au sein d’une organisation. Elle est basée sur un alignement d’objectifs confrontés par des résultats.

Enfin, sa grande révolution : le DataOps accepte l’échec et se construit par expérimentations.

Voici une liste de quelques principes pour réussir votre DataOps :

  1. Tirez parti des enseignements de vos cousins DevOps sur leurs techniques de développement et de déploiement d’applications agiles dans votre travail de données et d’analyse.
  2. Identifier des objectifs business quantifiables, mesurables et atteignables. Vous pourrez alors communiquer de manière plus régulière, progresser vers un but commun et être ajustés plus facilement.
  3. Commencez par identifier et cartographier vos données (type, format, qui, quand, où, pourquoi, etc.) à l’aide de solutions de data catalogs.
  4. Encouragez la collaboration entre différents acteurs en fournissant des canaux de communication et des solutions pour le partage des métadonnées
  5. Prenez soin de vos données, car elles peuvent produire de la valeur à tout moment. Nettoyez-les, cataloguez-les et faites-en un élément clé de votre entreprise, qu’elles aient de la valeur maintenant ou non.
  6. Un modèle peut bien fonctionner une fois, mais pas forcément pour le lot de données suivant. La sur-spécification et la sur-ingénierie d’un modèle ne seront probablement pas applicables à de nouvelles données ou de nouvelles circonstances dans lesquelles le modèle sera déployé.
  7. Maximiser vos chances de réussite par l’introduction de l’approche DataOps en choisissant des projets de données et d’analyse ayant des difficultés dues à un manque de collaboration ou qui sont surchargés par le rythme. Ils vous permettront de mieux montrer sa valeur.
  8. Restez agile, concis dans la conception, développez, testez, publiez et répétez ! Gardez un esprit lean et construisez sur des changements progressifs. L’amélioration continue est possible lorsqu’une culture de l’expérimentation est encouragée et que les gens s’améliorent en faisant des erreurs. N’oubliez pas que la data science est toujours une science !

En résumé, quels sont les avantages du DataOps ?

DataOps aide votre entreprise à évoluer à la vitesse des données – en suivant le rythme pour fournir les bonnes informations.

Il concentre les activités liées aux données pour qu’elles soient alignées sur les objectifs de l’entreprise. DataOps se concentre également sur la création de valeur à partir de toutes vos activités data, car même la plus petite d’entre elles peut inspirer les changements culturels nécessaires à d’autres mises en œuvre à venir.

L’adoption du DataOps dans une culture d’expérimentation est une bonne pratique en matière de données et permet aux innovateurs de l’organisation de faire preuve d’intelligence à petite échelle et rapidement.

C’est la voie vers les bonnes pratiques business, et celle qui vous éloigne des Data Oops !

Tout ce que vous devez savoir sur le Data Ops

Tout ce que vous devez savoir sur le Data Ops

« L’année prochaine, le nombre d’experts en data & analytics dans les business unit augmentera à un rythme trois fois supérieur à celui des experts des départements IT, ce qui obligera les entreprises à repenser leurs modèles organisationnels ». – Gartner, 2020.

Les équipes data & analytics sont essentielles pour soutenir une activité commerciale de plus en plus complexe. Nombre d’entités sont amenées à adapter le travail qu’elles effectuent en analysant des données pour soutenir, livrer plus rapidement et avec une meilleure qualité leurs travaux.

Ce nouveau défi amène les data leaders à repenser la façon dont leurs équipes sont organisées…

Alors que les modèles traditionnels également appelés Waterfall s étaient largement répandus et utilisés dans les entreprises, ces méthodologies s’avèrent aujourd’hui trop longues, trop cloisonnées et trop prise de tête dans un time to market toujours plus raccourci !

C’est là que Data Ops intervient : une approche plus agile, plus collaborative et plus propice au changement pour la gestion des données.

Définition du Data Ops

Gartner définit le Data Ops comme étant une « pratique collaborative de gestion des données visant à améliorer la communication, l’intégration et l’automatisation des flux de données entre les gestionnaires et les consommateurs de données au sein d’une organisation« . Autrement dit, il s’agit de faciliter la vie des utilisateurs de données.

Similaire à la façon dont le DevOps, un ensemble de pratiques qui combine le développement de logiciels (Dev) et les opérations de technologies de l’information (Ops), a changé notre façon de livrer les logiciels, DataOps utilise les mêmes méthodologies pour les équipes qui travaillent avec des produits data.

Les deux méthodes se veulent les plus agiles possibles et, pour atteindre cet objectif, DataOps exige de la coordination de toute personne qui travaille avec des données dans l’ensemble de l’entreprise.

Plus précisément, la promotion de l’approche DataOps dans les organisations s’avère apporter une grande valeur pour les organisations :

  • Augmentation de la fréquence des déploiements : l’évolution vers une méthode de livraison plus rapide et plus continue permet aux organisations de réduire le délai de mise sur le marché.
  • Tests automatisés : la suppression des tests manuels, qui prennent beaucoup de temps, permet d’obtenir des données de meilleure qualité.
  • Contrôle des métadonnées : le suivi et le signalement des métadonnées pour tous les consommateurs dans le pipeline de données garantissent une meilleure gestion des changements et évitent les erreurs.
  • Surveillance : le suivi du comportement des données et de l’utilisation du pipeline permet d’identifier plus rapidement les défauts – qui doivent être corrigés – et les données de bonne qualité pour les nouvelles capacités.
  • Collaboration constante : la communication entre les parties prenantes sur les données est essentielle pour une livraison plus rapide des données.

 

Qui est impliqué dans le Data Ops ?

Compte tenu de l’importance des cas d’utilisation liés aux données, les rôles impliqués dans la réussite d’un projet de données sont plus nombreux et plus répartis que jamais. Des équipes de data science, aux personnes extérieures au secteur IT, un grand nombre de rôles sont impliqués :

  • Business analysts,
  • Data architects,
  • Data engineers,
  • Data stewards,
  • Data scientists,
  • Data product managers,
  • Machine Learning developers,
  • Database administrators,
  • Etc.

Comme mentionné ci-dessus, une approche de Data Ops nécessite une communication et une collaboration intense entre ces rôles. Chacun d’entre eux doit comprendre ce que les autres attendent d’eux, ce que les autres produisent, et doit avoir une compréhension commune des objectifs des pipelines de données qu’ils créent et font évoluer.

La création de canaux par lesquels ces rôles peuvent travailler ensemble, tels qu’un outil de collaboration ou une solution de gestion des métadonnées, est un point de départ !

Comment vous allez planter votre projet de data catalog (ou pas…)

Comment vous allez planter votre projet de data catalog (ou pas…)

Nous observons sur le marché des data catalogs de nombreuses solutions proposant une vue haut niveau des données de l’entreprise grâce à l’effort et l’endurance des équipes data. Cependant, après une courte période d’utilisation, de par les démarches entreprises et les solutions retenues, les projets de data catalog tombent fréquemment en désuétude.

Voici les quelques points qui font que le déploiement d’un data catalog peut capoter… ou pas ! 

 

Vos objectifs n’ont pas été définis

Nombre de projets de data catalog sont lancés sous des démarches Big Bang ayant pour objectif de “documenter ses actifs” sans savoir quels réels objectifs poursuivre.

Pour ne pas craindre la mise à mal du projet, nous prônons un modèle basé sur l’itération et la génération de valeur. À l’inverse, cette démarche permet une meilleure maîtrise du risque et la possibilité d’avoir un retour sur investissement plus rapide.

Les premiers effets doivent pouvoir être constatés à la fin de chaque itération. En d’autres termes, l’objectif doit être déterminé pour produire de la valeur concrète pour l’entreprise et surtout vos utilisateurs de données.

À titre d’exemple, si votre objectif est la conformité, démarrez une documentation centrée sur ces propriétés et ciblez un domaine, une zone géographique, une business unit ou un processus d’entreprise particulier.

La motivation de vos troupes s’essoufflera dans le temps

Même s’il est possible d’obtenir l’adhésion et le soutien de l’entreprise pour son effort d’inventaire des données à ses débuts, il est impossible de maintenir ce soutien et d’assurer l’adhésion du projet sans capacités d’automatisation.

Nous pensons que le travail de documentation descriptive doit être le plus limité possible pour ne pas perdre la motivation de vos équipes. La mise en place d’un data catalog doit être un projet progressif et ne durera que si l’effort requis par chacun est supérieur à la valeur qu’ils en obtiendront dans un futur proche.

Vous n’aurez pas la masse critique d’informations nécessaires

Pour qu’un data catalog apporte de la valeur dans votre organisation celui-ci se doit d’être richement rempli. En d’autres termes, lorsqu’un utilisateur recherche une ressource dans un data catalog, il doit la trouver la plupart du temps.

Au démarrage d’un projet de mise en place de data catalog, les chances que les informations souhaitées par un utilisateur ne soient pas disponibles dans le data catalog sont élevées.

Toutefois cette période doit être la plus courte possible afin que vos utilisateurs voient rapidement la valeur générée par le data catalog. En faisant le choix d’une solution tactique, basée sur la technologie de la solution et sa connectivité aux sources d’informations, vous mettrez à disposition et ce, dès son lancement, un catalogue pré-rempli.

Ne reflète pas votre réalité opérationnelle

Outre les défis que posent les projets de mise en œuvre de catalogues, ces derniers doivent présenter un ensemble de caractéristiques automatisées pour être utiles et efficaces dans le temps. Il est surprenant de constater que beaucoup d’entre eux n’ont pas ces exigences minimales pour être viables et sont destinés à une mort lente et douloureuse.

La connectivité des data catalogs à vos sources permettra d’assurer aux consommateurs de données :

  • la fiabilité quant aux informations mises à disposition dans le data catalog pour l’analyse et leurs usages dans leurs projets.
  • la fraîcheur des informations cataloguées : sont-elles actuelles et à jour, en temps réel ?

Comment Spotify a amélioré la découverte de données pour les Data Scientists

Comment Spotify a amélioré la découverte de données pour les Data Scientists

Crédit photo Gavin Whitner

En tant que leader mondial du marché du streaming de musique, il ne fait aucun doute que la firme est data-driven.

Spotify a accès aux plus grandes collections de musique du monde, ainsi qu’à des podcasts et autres contenus audio.

Qu’ils envisagent un changement de stratégie produit ou qu’ils décident quels morceaux ajouter dans leur librairie, Spotify affirme que « les données fournissent une base pour une meilleure prise de décision ».

Spotify en chiffre

Fondée en 2006 à Stockholm par Daniel Ek et Martin Lorentzon, Spotify avait pour but d’être une plateforme de streaming légale afin de lutter contre le piratage de musique au début des années 2000.

Quelques statistiques sur Spotify en 2020 :

  • 248 millions d’utilisateurs actifs dans le monde,
  • 20 000 chansons sont ajoutées par jour sur leur plateforme,
  • Spotify détient 40 % du marché mondial de la musique en streaming,
  • 20 milliards d’heures de musique ont été écoutées en 2015

Ces chiffres représentent non seulement le succès de Spotify, mais également les quantités colossales de données qui sont générées chaque année, voire chaque jour ! Pour permettre à leurs employés, ou comme ils les appellent, les “Spotifiers”, de prendre des décisions plus rapides et plus intelligentes, Spotify a développé Lexikon.

Lexikon est une librairie contenant des données et informations qui aide les employés à trouver et comprendre leurs données et connaissances générées par leur communauté d’experts.

Quelles étaient les problématiques liées à la donnée chez Spotify ?

Dans leur article How We Improved Data Discovery for Data Scientists at Spotify, Spotify explique qu’ils ont démarré leur stratégie data en migrant leurs données vers le Google Cloud Platform, et ont vu une explosion de leurs jeux de données !

Ils étaient également en pleine recherche de nouveaux spécialistes data tels que des data scientists, data analysts, etc. Cependant, ils expliquent qu’il n’était pas clair qui étaient les propriétaires de leurs jeux de données et que ceux-ci n’étaient pas ou peu documentés, ce qui rendait difficile la recherche des données.

L’année suivante, ils ont sorti Lexikon, comme solution à ce problème.

Leur première version a permis aux Spotifiers de rechercher et de parcourir les tables BigQuery disponibles ainsi que de découvrir les recherches et analyses passées. Cependant, des mois après le lancement, les data scientists continuaient à considérer la découverte de données comme un problème majeur, passant la plupart de leur temps à essayer de trouver leurs ensembles de données, ce qui retardait la prise de décision informée.

Spotify a alors décidé de se concentrer sur cette problématique spécifique en itérant sur Lexikon, dans le but unique d’améliorer l’expérience de découverte de données pour les data scientists.

Comment fonctionne la découverte de données de Lexikon ?

Pour que Lexikon puisse marcher, Spotify a commencé par mener des recherches sur ses utilisateurs, leurs besoins ainsi que leurs “pain points”. Ce faisant, l’entreprise a pu mieux comprendre les intentions de ses utilisateurs et utiliser cette compréhension pour mieux développer le produit.

Découverte de données à faible intention

Imaginons, vous êtes de mauvaise humeur et vous aimeriez écouter de la musique pour vous remonter le moral. Alors, vous ouvrez Spotify, vous parcourez différentes playlist pour booster votre humeur et vous démarrez la playlist « Mood Booster ».

Tah-dah ! Il s’agit d’un exemple de découverte de données à faible intensité, ce qui signifie que votre objectif a été atteint sans exigences extrêmement strictes.

Pour mettre cela dans le contexte d’un data scientist de Spotify, en particulier les nouveaux, leur découverte de données de faible intention serait :

  • trouver des jeux de données populaires / largement utilisés dans l’entreprise,
  • trouver des jeux de données pertinents pour le travail de son équipe,
  • trouver des ensembles de données que je n’utilise peut-être pas, mais que je devrais connaître.

Pour répondre à ces besoins, Lexikon dispose donc d’une page d’accueil personnalisable avec des recommandations personnalisées aux utilisateurs. La page d’accueil fait des suggestions pertinentes, générées automatiquement, pour des jeux de données tels que :

 

  • les jeux de données les plus utilisés au sein de l’entreprise,
  • les jeux des données récemment utilisées par l’utilisateur,
  • des jeux de données les plus utilisés par l’équipe à laquelle appartient l’utilisateur.

Découverte de données de haute intention

Pour expliquer simplement, Spotify utilise l’exemple de quand on entend une chanson qu’on aime bien mais qu’on ne la connaît pas. On ouvre donc l’application et recherche cette chanson jusqu’à ce qu’on la trouve enfin, et l’écoute en boucle. Il s’agit d’une découverte de données de haute intention !

Un spécialiste des données à Spotify avec de hautes intentions a des objectifs spécifiques et est susceptible de savoir exactement ce qu’il recherche. Par exemple, il pourrait vouloir :

  • trouver un jeu de données par son nom,
  • trouver un jeu de données qui contient un champ de schéma spécifique,
  • trouver un jeu de données relatif à un sujet particulier,
  • trouver un jeu de données utilisé par un collègue dont il ne se souvient pas du nom,
  • trouver les principaux jeux de données qu’une équipe a utilisés à des fins de collaboration.

Pour répondre aux besoins des data scientists, Spotify s’est d’abord concentré sur leur expérience de recherche. Ils ont construit un algorithme de classement basé sur la popularité d’un jeu de données.

Ce faisant, les data scientists ont indiqué que les résultats de leurs recherches étaient plus pertinents et qu’ils avaient davantage confiance en les jeux de données qu’ils découvraient.

En plus d’améliorer la recherche, ils ont introduit de nouveaux types de propriétés (schémas, champs, contact, équipe, etc.) dans Lexikon.

Dans l’exemple ci-dessous, un utilisateur recherche « track_uri ». Il est capable de naviguer dans la page du champ du schéma « track_uri » et de voir les tableaux contenant cette information. Depuis l’ajout de cette nouvelle fonctionnalité, elle s’est avérée être un chemin critique pour la découverte de données, 44 % des utilisateurs de Lexikon visitant ce type de pages.

Les conclusions sur Lexikon

Depuis ces améliorations, l’utilisation de Lexikon par les spécialistes des données est passée de 75 % à 95 %, ce qui le place dans le top 5 des outils les plus utilisés !

La découverte de données n’est donc plus un problème majeur pour les Spotifiers.

Sources:

Spotify Usage and Revenue Statistics (2019): https://www.businessofapps.com/data/spotify-statistics/
How We Improved Data Discovery for Data Scientists at Spotify: https://labs.spotify.com/2020/02/27/how-we-improved-data-discovery-for-data-scientists-at-spotify/
75 amazing Spotify Statistics and Facts (2020): https://expandedramblings.com/index.php/spotify-statistics/

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Les métadonnées vues par les géants du Web

Les métadonnées vues par les géants du Web

L’analyse du cycle de vie des données fait partie des éléments les plus difficiles à mettre en oeuvre par les entreprises ces dernières années.

Les organisations à la pointe de l’innovation par la donnée telles que Uber, LinkedIn, Netflix, Airbnb ou encore Lyft ont également perçu la valeur des métadonnées dans l’ampleur de ce défi.

Elles ont ainsi développé une gestion des métadonnées à l’aide de plateformes dédiées. Fréquemment développées de manière custom, elles facilitent l’ingestion, l’indexation, la recherche, l’annotation et la découverte des données afin de maintenir des jeux de données de haute qualité.

Des exemples ci-dessous ressortent une constante partagée : la difficulté, accrue par la volumétrie et la variété, à transformer les données de l’entreprise en connaissance exploitable.

Voyons ensemble l’analyse et le contexte de ces grands du Web :

Uber

Chaque interaction sur la plate-forme Uber, qu’il s’agisse des VTC ou des livraisons de repas à domicile est basée sur les données. Grâce à leur analyse, les données permettent des expériences utilisateurs plus fiables et plus pertinentes.

Uber en chiffres, cela représente :

  • des milliers de milliards de messages Kafka par jour,
  • des centaines de pétaoctets de données dans HDFS dans des data centers,
  • des millions de requêtes analytiques hebdomadaires.

Cependant, la volumétrie de données générée ne suffit pas à elle seule à tirer parti des informations qu’elles représentent ; pour être utilisées de manière efficace et efficiente, les données nécessitent plus de contexte pour prendre des décisions commerciales optimale.

Pour fournir des informations supplémentaires, Uber a donc développé “Databook”, la plateforme interne d’Uber qui collecte et gère les métadonnées sur les jeux de données internes, afin de transformer les données en connaissances.

La plateforme Databook est conçue pour permettre aux employés d’Uber d’explorer, de découvrir et d’utiliser efficacement les données de chez Uber.

Databook garantit le contexte sur les données – ce qu’elles signifient, leur qualité, etc. – pour les milliers de collaborateurs qui essaient de les analyser. En bref, les métadonnées de Databook permettent aux parties prenantes des données de passer de l’affichage de données brutes à des connaissances exploitables.

Dans l’article « Databook: Turning Big Data into Knowledge with Metadata at Uber », l’article conclut que l’un des plus gros défis du Databook était de passer d’une mise à jour manuelle du répertoire de métadonnées à l’automatisation.

Airbnb

Lors d’une conférence menée en mai 2017, John Bodley, Data Engineer chez AirBnB, exposait les nouvelles problématiques issues de la forte croissance de la société : celles d’un paysage confus et non unifié qui ne permettait pas d’accéder à l’information toujours plus importante.

Que faire de toutes ces données collectées quotidiennement ? Comment les transformer en une force pour tous les employés d’Airbnb ?

Une équipe dédiée s’est mise en ordre de bataille pour développer un outil qui démocratiserait l’accès aux données au sein de l’entreprise. Leur travail s’est à la fois fondé sur la connaissance des analystes et leur capacité à comprendre les points critiques et sur celle des ingénieurs, à même de proposer une vision plus technique de l’ensemble. Au cœur du projet, des interviews des employés et de leurs problématiques ont été menées.

De cette enquête est ressortie : une difficulté à trouver les informations dont les collaborateurs avaient besoin pour travailler, et des démarches encore trop tribales dans le partage et la détention d’informations.

Pour répondre à ces enjeux, AirBnB a créé le Data Portal, plateforme de gestion de métadonnées. Le Data Portal centralise et partage ces informations via cette plateforme en self-service.

Lyft

La société Lyft est un service de VTC. Sur le marché américain, elle est le principal concurrent d’Uber.

Lyft est partie d’un constat d’inefficience dans l’accès aux données pour ses profils analytiques. Ses réflexions se sont axées sur la mise à disposition de la connaissance des données pour optimiser ses processus. En quelques mois seulement, l’initiative de proposer une interface de recherche de données a porté des fruits concrets sur ces 2 grands défis :

La productivité – Que ce soit pour créer un nouveau modèle, instrumenter une nouvelle métrique ou effectuer une analyse ad hoc, comment Lyft peut utiliser ces données de la manière la plus productive et la plus efficace possible ?

La conformité – Lors de la collecte de données sur les utilisateurs d’une entreprise, comment Lyft peut se conformer aux exigences réglementaires croissantes et préserver la confiance de ses utilisateurs ?

Dans leur article Amundsen — Lyft’s data discovery & metadata engine, Lyft affirme que la clé ne réside pas dans les données, mais dans les métadonnées !

Netflix

En tant que leader mondial du streaming vidéo, l’exploitation des données chez Netflix est, bien évidemment, un axe stratégique majeur.

Compte tenu de la diversité des sources de données, la plateforme vidéo souhaitait proposer un moyen de fédérer et d’interagir avec ces assets depuis un même outil. Cette recherche de solution a abouti à Metacat.

Cet outil agit comme une couche d’accès aux données et métadonnées depuis les sources de données de Netflix. L’outil permet ses utilisateurs un accès aux données et ce, quelque soit leurs systèmes de stockage grâce à trois fonctionnalités différentes :

  1. L’ajout de métadonnées métier : à la main ou définies par les utilisateurs, des métadonnées métier peuvent être ajoutées via Metacat.
  2. La data discovery : l’outil publie des métadonnées de schéma et métier définies par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche en texte intégral d’informations dans les sources de données.
  3. La notification de modification de données et audits : Metacat enregistre et notifie toutes les changements apportés sur les métadonnées depuis les systèmes de stockage.

Dans l’article Metacat: Making Big Data Discoverable and Meaningful at Netflix, la firme confime qu’ils sont loin d’avoir fini ! Il y a quelques fonctionnalités supplémentaires sur lesquelles ils doivent encore travailler pour améliorer l’expérience data warehousing :

 

  • Schéma pour fournir l’historique d’un tableau,
  • Fournir des informations contextuelles sur les tableaux pour un meilleur data lineage,
  • Ajouter un support pour les datastores comme Elasticsearch et Kafka.

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Amundsen: comment Lyft simplifie la découverte des données

Amundsen: comment Lyft simplifie la découverte des données

Dans notre précédent article, nous avons parlé de la solution Databook d’Uber , une plateforme interne conçue par leurs ingénieurs dans le but de contextualiser les données d’entreprise. Dans cet article, nous nous concentrerons sur la plateforme de découverte de données à l’aide des métadonnées de Lyft : Amundsen.

Après le succès d’Uber, le monde du VTC a vu arriver une vague importante de concurrents et parmi eux, Lyft.

Les chiffres clés de Lyft

Fondée en 2012 à San Francisco, Lyft opère dans plus de 300 villes aux États-Unis et au Canada. Avec plus de 29% du marché américain du VTC*, Lyft s’est assuré la deuxième position, au coude à coude avec Uber. Voici quelques statistiques clés sur Lyft:

  • 23 millions d’utilisateurs Lyft en janvier 2018,
  • Plus d’un milliard de trajets Lyft,
  • 1,4 million de conducteurs (décembre 2017).

Et bien sûr, ces chiffres se sont transformés en quantités colossales de données à gérer ! Dans une entreprise moderne et data-driven comme Lyft, il est évident que leur plateforme est alimentée par la donnée. Avec l’augmentation rapide du paysage data, il devient de plus en plus difficile de savoir quelles données existent, comment y accéder et quelles informations sont disponibles.

Ces questions ont conduit à la création d’Amundsen, la solution de découverte de données open source et plateforme de métadonnées de Lyft.

L’histoire d’Amundsen

Nommé d’après l’explorateur norvégien Roald Amundsen, Lyft améliore la productivité des utilisateurs de la donnée en fournissant une interface de recherche des données intuitive, qui ressemble à ceci:

Bien que les data scientists de Lyft souhaitaient consacrer la majorité de leur temps au développement et à la production de modèles, ils ont réalisé que leur quotidien était principalement dédié à la découverte de données. Ils se retrouvaient à poser des questions telles que :

  • Ces données existent-elles? Si c’est le cas, où puis-je les trouver? Puis-je y accéder?
  • Qui ou quelle équipe est propriétaire ?Qui sont les utilisateurs communs?
  • Puis-je faire confiance à ces données?

Pour répondre à ces questions, Lyft s’est inspiré de moteurs de recherche comme Google (quelle surprise 😉 ).

Comme indiqué ci-dessus, leur point d’entrée est une simple zone de recherche où les utilisateurs peuvent taper n’importe quel mot-clé tel que «clients» «employés» ou «prix». Enfin, si l’utilisateur de données ne sait pas ce qu’il recherche, la plateforme lui présente une liste des tableaux les plus populaires, afin qu’il puisse les parcourir librement.

Quelques fonctionnalités clés :

Les résultats de la recherche sont affichés sous forme de liste où la description du tableau et la date de dernière mise à jour du tableau apparaissent. Le classement utilisé est similaire au Page Rank de Google, où les tableaux les plus populaires et les plus pertinents apparaissent dans les premiers résultats.

Lorsqu’un utilisateur data chez Lyft trouve ce qu’il recherche et fait son choix, l’utilisateur est dirigé vers une page de détails qui affiche le nom de la table ainsi que sa description qui a été manuellement rédigée.

Les utilisateurs peuvent également insérer manuellement des balises, les propriétaires et d’autres descriptions. Cependant, une grande partie de leurs métadonnées est automatiquement organisée, comme la popularité de la table ou même ses utilisateurs fréquents.

Dans une table, les utilisateurs peuvent explorer les colonnes associées pour découvrir davantage les métadonnées de la table.

Par exemple, si vous sélectionnez la colonne «distance_travelled» comme indiqué ci-dessous, vous trouverez une petite définition du champ et ses statistiques associées telles que l’enregistrement de décompte, le décompte max, le décompte min, le décompte moyen, etc., pour les données scientifiques pour mieux comprendre la forme de leurs données.

Enfin, les utilisateurs peuvent accéder aux données parmi leur ensemble en appuyant sur le bouton d’aperçu de la page. Bien sûr, cela n’est possible que si l’utilisateur a accès aux données sous-jacentes en premier lieu.

Comment Amundsen démocratise la découverte de données

Affichage de données pertinentes

Amundsen permet désormais à tous les employés de Lyft, des nouveaux employés aux plus expérimentés, de devenir autonomes dans la découverte de leurs données pour leurs tâches quotidiennes.

Parlons technique. La data warehouse de Lyft est sur Hive et toutes les partitions physiques sont stockées dans S3. Leurs utilisateurs comptent sur Presto, un moteur de requête en direct, pour la découverte de leur table.

Pour que son moteur de recherche affiche les tableaux les plus importants ou pertinents, Lyft utilise le framework DataBuilder pour créer un extracteur d’utilisation des requêtes qui analyse les journaux de requêtes et ainsi obtenir les données d’utilisation des tables. Ensuite, ils conservent cette utilisation de table en tant que document de table via Elasticsearch. Et c’est ainsi qu’en très peu de temps ils peuvent récupérer les jeux de données les plus pertinents pour les utilisateurs de données.

 

Connecter les données aux personnes

Les processus de recherche de données consistent principalement en interactions avec les utilisateurs.

Et la notion de propriété des données est assez confuse ; cela prend beaucoup de temps, sauf si vous savez exactement à qui demander.

Amundsen résout ce problème en créant des relations entre leurs utilisateurs et leurs données. Ainsi, les connaissances tribales sont partagées en exposant ces relations.

Lyft a actuellement trois types de relations entre les utilisateurs et les données : suivies, détenues et utilisées. Ces informations aident les employés expérimentés à devenir des ressources utiles pour d’autres employés ayant un rôle similaire. Amundsen facilite également la recherche des connaissances tribales grâce à un lien vers chaque profil utilisateur dans l’annuaire interne des employés.

Ils ont également travaillé sur la mise en œuvre d’une fonctionnalité de notifications qui permettrait aux utilisateurs de demander plus d’informations aux propriétaires de données, comme par exemple une description manquante dans un tableau.

Pour plus d’informations sur Amundsen, rendez-vous sur leur site juste ici.

Quelle est la prochaine étape pour Lyft

Lyft espère continuer à travailler avec une communauté croissante pour améliorer leur expérience de découverte de données et augmenter la productivité des utilisateurs. Leur roadmap comprend actuellement un système de notifications par e-mail, une lignée de données, une refonte UI / UX, et plus encore !

La société de VTC américaine n’a pas encore eu son dernier mot !

 

 

Sources:

Lyft – Statistics & Facts: https://www.statista.com/topics/4919/lyft/
Lyft And Its Drive Through To Success: https://www.startupstories.in/stories/lyft-and-its-drive-through-to-success
Lyft Revenue and Usage Statistics (2019): https://www.businessofapps.com/data/lyft-statistics/
Presto Infrastructure at Lyft: https://eng.lyft.com/presto-infrastructure-at-lyft-b10adb9db01?gi=f100fa852946
Open Sourcing Amundsen: A Data Discovery And Metadata Platform: https://eng.lyft.com/open-sourcing-amundsen-a-data-discovery-and-metadata-platform-2282bb436234
Amundsen — Lyft’s data discovery & metadata engine: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Databook : Comment Uber transforme ses données en connaissances exploitables d’entreprise

Databook : Comment Uber transforme ses données en connaissances exploitables d’entreprise

Créée en 2009, Uber est devenue une des entreprises les plus fascinantes au monde ! La startup a complètement changé le monde avec son business model basé sur la mise en relation de personnes proposant des services. Le succès de la firme a même mené à la création du terme “uberisation”, c’est dire !

De service VTC à livraison de commandes de restaurants, il est évident que la stratégie de la plateforme d’Uber est guidée par leurs données. Elles sont effectivement au cœur du business d’Uber, créant de meilleures expériences utilisateur à travers leurs services pour leurs clients, tout en permettant à leurs employés d’être plus efficaces dans leur travail.

Cependant, le Big Data à lui seul n’est pas suffisant pour accomplir la mission de ce géant. Le volume de données généré chez Uber demande qu’elles soient contextualisées et fiables afin de prendre les bonnes décisions stratégiques. Donc, comme beaucoup de “unicorns”, telle que Airbnb avec le Data Portal, l’équipe d’ingénieurs de Uber a développé Databook. Cette plateforme interne a pour objectif de scanner, collecter et agréger les métadonnées afin de voir plus clair sur la localisation des données dans le SI de Uber et leurs référents. Bref, une plateforme qui veut transformer des données brutes en données contextualisées

L’évolution d’Uber (et de ses données)

Depuis 2016, Uber a ajouté plusieurs services à sa plateforme comme Uber Eats et Jump Bikes. Quelques statistiques :

  • 15 millions de courses par jour
  • Plus de 75 millions d’utilisateurs actifs
  • 18 000 employés depuis sa création en 2009

Plus l’entreprise grandit, plus elle génère de la donnée ! Pour s’assurer que leurs data et analytics poursuivent rythme d’une croissance exponentielle basée sur la data, Uber avait besoin d’un système beaucoup plus puissant pour gagner en efficacité dans la recherche et la découverte de données pertinentes.

Ceci a mené à la création de Databook, le curateur de métadonnées d’Uber.

L’arrivée de Databook

La plateforme Databook agrège et gère les métadonnées sur les jeux de données d’Uber. Elle permet aux employés d’explorer, découvrir et utiliser efficacement leurs données. En d’autres termes, Databook veut aider les analysts et tout autre consommateur de données dans l’entreprise à mieux comprendre et contextualiser la ressource qu’il s’apprête à utiliser à l’aide de métadonnées. Les métadonnées de Databook permettent à tous les ingénieurs, data scientists et équipes informatiques de passer de la simple visualisation de leurs données à leur transformation en connaissances exploitables.

 

Databook permet aux employés d’accéder à des métadonnées actualisées et à jour grâce à des imports automatisés. Elles sont collectées principalement depuis Hive, MySQL, Cassandra et quelques autres systèmes de stockage internes. Pour les rendre accessibles et recherchables, Databook propose à ses consommateurs une interface utilisateur avec un moteur de recherche à la Google ou son API RESTful.

 

L’architecture de Databook

L’architecture de Databook est divisée en trois parties: comment les métadonnées sont collectées et stockées, et comment leurs données sont remontées.

Sur le plan conceptuel, l’architecture de Databook a été conçue pour permettre quatre fonctionnalités clés:

  • Extensible : de nouvelles métadonnées, le stockage et les entités sont faciles à ajouter.
  • Accessibilité : les services peuvent accéder à toutes les métadonnées
  • Évolutivité : prendre en compte dans le temps les besoins des utilisateurs et des nouveautés technologique..
  • Puissance et rapidité

Pour aller plus loin sur l’architecture de la plateforme, cliquez ici https://eng.uber.com/databook/

 

L’avenir du Databook ?

Avec le Databook, Uber a réussi à transformer ses métadonnées en super connaissances !

La plateforme a su montrer sa puissance et sa nécessité dans une organisation data-driven. De nouvelles fonctionnalités ne devraient pas tarder à être apportées : les capacités de générer des informations sur les données avec des modèles d’apprentissage automatique et de créer des mécanismes avancés de détection, de prévention et d’atténuation des problèmes. L’avenir du Databook semble radieux !

 

 

Sources

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Qu’est-ce que le Data Fingerprinting et la détection de similarité ?

Qu’est-ce que le Data Fingerprinting et la détection de similarité ?

Avec l’arrivée du Big Data, les entreprises se sont retrouvées avec un nombre colossal de données. Afin de pouvoir les comprendre, analyser, et répondre aux exigences réglementaires, les organisations se voient obligées de renseigner et documenter leur patrimoine de données. Néanmoins, l’humain seul, de par son aspect très chronophage et une connaissance très tribale des données, reste très difficile, voire impossible, de décrire et contextualiser toutes ces données à la main.

Ou sinon… optez pour le Data Fingerprinting !

Qu’est-ce que le Data Fingerprinting

Dans le domaine de la data, un fingerprint, représente une “signature”, autrement dit une empreinte, d’une colonne d’un jeux de données. Sa finalité est de les contextualiser.

Via cette technologie, le Data Fingerprinting peut permettre de détecter automatiquement des jeux de données similaires dans vos bases de données et les documenter plus facilement, rendant la tâche des Data Stewards moins fastidieuse et donc, plus maintenable dans le temps.

Pour exemple, de manière supervisée par le data steward évidemment, le data fingerprinting permet de comprendre que les données d’une colonne reprenant les informations “France”, “États-Unis”, et “Australie” signifient des “Pays”.

Le Data Fingerprinting chez Zeenea

Dans le cas de Zeenea et de sa plateforme de gestion de métadonnées, son objectif est d’apporter et renseigner les jeux de données catalogués dans le Data Catalog de la manière la plus automatique possible. Grâce à ses technologies de Machine Learning, Zeenea identifie les colonnes des schémas des jeux de données, les analyse et leur assigne une “signature”. Ainsi, lors de l’analyse, si ces empreintes sont proches, le Data Catalog proposera au Data Steward d’assigner les mêmes informations relative à d’un jeu de données à un autre.

Cette technologie est également un moyen pour les DPO, entre autres, de souligner et pointer les données sensibles ou personnelles que possèdent l’entreprise dans ses bases de données.

Data visualisation : faites parler vos données

Data visualisation : faites parler vos données

Qu’est-ce que la data visualisation ?

La data visualisation est définie comme étant une représentation graphique de la donnée.

Elle est utilisée pour comprendre le contexte et la signification des données en montrant les tendances et corrélations entre elles ; ce qui pourrait être difficile à interpréter sous des formats plus traditionnels. Ces représentations graphiques peuvent être sous forme de diagrammes, tableaux, graphiques, cartes thermiques, et bien plus.

Les avantages de la data visualisation

Dans la BI, ou Business Intelligence, la data visualisation est déjà une fonctionnalité fondamentale. Avec l’arrivée du Big Data, elle est devenue cruciale pour aider les consommateurs de la donnée à déchiffrer les millions de données générées chaque jour. Non seulement la data visualisation aide les utilisateurs à exploiter leurs données dans une représentation graphique simple à comprendre, mais elle permet également aux employés de gagner du temps et de travailler plus efficacement.

Dans un sens, la data visualisation permet aux organisations de démocratiser la compréhension des données dans l’entreprise. Ainsi, les sponsors de la donnée, tels que les Chief Data Officers, voient en cette discipline une manière de remplacer la prise de décision sous intuition par l’analyse des données. Autrement dit, se diriger vers une culture data-driven.

Comment apporter plus de valeur avec la data visualisation ?

Même si la promesse des outils de data visualisation est forte, les organisations ont encore du mal à représenter visuellement leurs données sous une forme pertinente et valorisable.

De nouveaux acteurs sur le marché relèvent le défi avec de nouveaux cas d’utilisations:

Une meilleure communication et compréhension des données

La data visualisation permet aux employés, même agnostiques à la data, de comprendre, analyser et communiquer via de nouveaux formats plus interactifs. La volonté des entreprises à devenir Data-Driven les mènent à former plus et mieux ses collaborateurs sur la manière de gérer et représenter leurs données.

 

maptive-data-visualisation-tools

Source : https://www.maptive.com/17-impressive-data-visualization-examples-need-see/

Plus d’interactions sur l’analyse des données

La construction de rapports devient une activité collaborative dans les entreprises et la présentation de données un usage quotidien. Les représentations graphiques de la donnée deviennent donc responsive afin de s’adapter à différents devices et n’importe quel type de revue. Cette discipline s’ouvre ainsi à des techniques du web et du mobile où la co-analyse et l’exploration des données se veut de plus en plus ludique et interactif.

 

Permettre un data storytelling

Le data storytelling concerne la communication des résultats plutôt que la supervision ou analyse de leurs progrès. De plus en plus de sociétés telles que DataTelling et Nugit se spécialisent dans ce domaine. Avec l’utilisation d’infographies et d’interactions, ces plateformes utilisent des techniques de data storytelling. Elles contextualisent et apportent du sens sur les données auprès des équipes.

 

Une data visualisation automatisée

Les utilisateurs de la donnée s’attendent de plus en plus à ce que leurs logiciels en fassent plus pour eux. La visualisation de données automatisée peut être très utile, par exemple, pour les utilisateurs ne sachant pas quel format visuel convient le mieux aux jeux de données qu’ils souhaitent explorer ou analyser. Ces fonctionnalités automatiques sont particulièrement appréciées par les data scientists, car leur temps sera dédié à l’analyse et la recherche de nouveaux usages plutôt que sur la manière de les visualiser.

 

Les meilleures plateformes Analytics & BI de Gartner

 

Selon Gartner, les leaders de plateforme analytics et business intelligence sont:

microsoft bi

      • Microsoft: Power BI de Microsoft est un ensemble d’outils de visualisation de données personnalisables qui vous donne une vue complète de votre entreprise. Il permet aux employés de collaborer et de partager des rapports à l’intérieur et à l’extérieur de leur organisation et de détecter les tendances au fur et à mesure. Cliquez pour plus d’informations.

tableau data visualization

 

      • Tableau: Tableau aide les utilisateurs à transformer leurs données en informations exploitables. Ils permettent aux utilisateurs d’explorer avec une analyse visuelle illimitée, de créer des tableaux de bord, d’effectuer des analyses ad hoc, etc. En savoir plus sur Tableau.

 

      • Qlik : Avec Qlik, les utilisateurs peuvent créer des visualisations intelligentes et glisser des éléments pour créer des applications d’analyse riches accélérées par les suggestions et l’automatisation d’IA. En savoir plus sur Qlik.

thoughtspot data visualization

      • ThoughtSpot : ThoughtSpot permet à l’utilisateur d’obtenir des informations détaillées à partir de milliards de lignes de données. Grâce à la technologie d’intelligence artificielle, découvrez des informations issues de questions auxquelles vous n’auriez peut-être pas pensé. Cliquez pour plus d’informations sur ThoughtSpot.

 

Pour conclure : pourquoi les entreprises devraient-elles utiliser la data visualisation ?

Les principales raisons pour lesquelles la data visualisation est importante pour les entreprises, entre autres, sont les suivantes:

      • Les données sont plus faciles à comprendre et à mémoriser
      • La visualisation des tendances et des relations de données est plus rapide
      • Les utilisateurs peuvent découvrir des données qu’ils n’auraient jamais pu voir auparavant
      • Les responsables des données peuvent prendre de meilleures décisions, basées sur les données

Keynotes d’intelligence artificielle au AI Paris 2019

Keynotes d’intelligence artificielle au AI Paris 2019

En tant que sponsor du AI Paris 2019 les 11 & 12 juin derniers, nous avons pu assister à plusieurs conférences autour du thème de l’intelligence artificielle. Parmi elles, deux keynotes très intéressantes.

L’humain et l’avenir de l’IA

Pour la deuxième année consécutive, Malakoff Médéric Humanis rend publique leur enquête sur l’IA et les ressources humaines. L’entreprise française a interrogé près de 1800 dirigeants, managers et salariés sur leur vision de l’intelligence artificielle en entreprise.

David Giblas, Chief Innovation, Digital and Data Officer chez Malakoff Médéric, nous explique qu’il y a une vraie prise de conscience générale sur l’importance de l’IA. Cependant, elle n’est pas encore considérée comme un des enjeux stratégiques par les entreprises.

De plus, une interrogation subsiste : quels seront les impacts de l’intelligence artificielle sur le capital humain ?

Les experts de Malakoff Médéric expliquent qu’aujourd’hui, l’éthique est au coeur des préoccupations des entreprises. En effet, ces dernières en font leur premier sujet d’inquiétude ! David Giblas présente que 78% des dirigeants estiment que c’est au dirigeants des Ressources Humaines de lutter contre les biais éthiques que pourraient être introduits par l’intelligence artificielle. Parmi eux, par exemple, une machine programmée par des algorithms dans un processus de recrutement : celle-ci pourrait discriminer le CV de certaines personnes en se basant sur son nom de famille, adresse, sa situation familiale, etc.

“Ces changements organisationnels prennent du temps et leur réussite dépendra majoritairement de leur accompagnement managérial.”

Il ajoute :

“Il s’agit de permettre aux salariés et managers d’adapter l’IA dans leur quotidien, de constater en quoi celle-ci modifie les manières de travailler et permet de créer de la valeur ajoutée. Cela permettra de démystifier le pouvoir de l’IA auprès des salariés.”

43% des salariés craignent la suppression d’activités par l’automatisation des tâches. Côté managers et dirigeants, ils sont plus optimistes ; l’intelligence artificielle va faire apparaître de nouveaux métiers et créer une hybridation des activités regroupant intelligence artificielle et humaine dans les 5 ans à venir. Ce concept nous rappelle étrangement la « destruction créatrice » de J. Schumpeter – processus dans les économies et qui voit se produire de façon simultanée la disparition de secteurs d’activité économique conjointement à la création de nouvelles activités économiques.

Selon l’étude de Malakoff Médéric, c’est donc aux fonctions managériales, plus précisément les DRH, de déployer et adopter l’intelligence artificielle au sein de leur entreprise. Afin que les salariés puissent avoir confiance, c’est donc à eux de démystifier et faciliter l’intelligence artificielle en aidant à la structuration, aux formations et aux réflexions sur les enjeux éthiques dans leur processus.

 

L’intelligence artificielle existe-elle réellement ?

Luc Julia, VP Innovation chez Samsung Electronics et ex-inventeur de “Siri”, nous pose une question : “Peut-on vraiment parler d’intelligence artificielle aujourd’hui ?”.

Nous avons tendance à imaginer l’intelligence artificielle comme le projette les films hollywoodiens ; des machines qui deviennent plus intelligents que nous et qui dominent le monde. Sauf que selon Luc Julia, avec les méthodes actuelles : L’IA n’existe pas !

Luc Julia commence par nous montrer des exemples “d’intelligence artificielle”. En 1997, Deep Blue (superordinateur spécialisé dans le jeu d’échecs) bat le champion du monde d’échecs Garry Kasparov.

“La victoire de Deep Blue est évidente ! La machine est programmée pour connaître et anticiper tous les coups d’avance. On a modélisé toutes les possibilités aux échecs (10 puissance 53), et pour un homme c’est beaucoup !”

Julia exprime.

Julia nous parle également de AlphaGo, programme qui avait battu le champion du monde du jeu du Go en 2014. “Avec le jeu de Go, c’est un peu différent car on ne peut pas modéliser toutes les possibilités. Une partie d’entre elles ont cependant été modélisées et des modèles statistiques aident à combler les trous. Donc il n’y pas d’intelligence, c’est simplement une masse de données et un peu de statistiques.” Il ajoute “AlphaGo c’est 1500 CPUs (processeurs), 300 GPU, et 440 kWh. L’humain en face, c’est 20 kWh. De plus, l’humain sait faire beaucoup plus de choses que de jouer au Go !”

Il est donc clair que selon Luc Julia, l’intelligence artificielle n’existe pas et est toujours explicable mathématiquement.

“Aujourd’hui, ce qu’on appelle l’intelligence artificielle est soit basé sur des systèmes experts à base de règles, ou bien des systèmes à base de données (machine learning). Si on veut arriver à de la vraie intelligence artificielle, il faudra recourir à d’autres méthodes que celles utilisées aujourd’hui.”

Comment McDonald’s France utilise le Big Data

Comment McDonald’s France utilise le Big Data

Venez comme vous êtes.” Ce slogan, connu de tous, est la phrase clé de McDonald’s et pilote toute leur stratégie.

En tant que sponsor du Big Data Paris, nous avons pu assister à de nombreuses conférences telles que BCG, Ministère des armées, Zalando, etc.

Parmi ces conférences, nous avons eu l’occasion de participer à celle de la marque McDonald’s, animée par Romain Girard, Directeur Business Insights et Thibault Labarre, Senior Manager chez Ekimetrics. Ils nous éclairent sur comment McDonald’s France utilise le Big Data pour mieux connaître ses consommateurs.

 

Les objectifs et challenges de McDonald’s France

McDonald’s c’est plus de 1450 points de vente et 2 millions de visiteurs par jour en France. Autant dire que le traitement des données est très complexe pour le géant du fast-food. Romain Girard explique :

“Avec autant de consommateurs par jour, il est important pour nous de distinguer les différents profils clients. Pour faire cela nous utilisons le Big Data.”

La restauration est un marché très concurrentiel où de nouveaux acteurs apparaissent tous les jours. L’émergence de fast-food étrangers tels que Burger King, O’Tacos ou même les super marchés instaurant des zones pour déjeuner comme Franprix ou Carrefour Market donnent le pouvoir aux consommateurs de choisir entre un nombre quasi infini d’enseignes.

L’objectif de McDonald’s est d’être numéro un sur le marché de la restauration rapide.

Mais avec la naissance des nouveaux comportements alimentaires (végétarisme, véganisme), des nouveaux modes de livraisons (les plateformes telles que Uber Eats, Deliveroo, etc.) ainsi que la digitalisation (les sites internets tels que La Fourchette), il est de plus en plus difficile de faire face à ces nouveaux acteurs. La réponse de McDonald’s se trouve dans le Big Data via la segmentation client afin d’offrir des offres plus personnalisées et innovantes.

Comment McDonald’s France distingue les différents profils clients ?

Afin de pouvoir distinguer les différents profils de ses consommateurs, McDonald’s utilise les données des tickets de caisse. Et oui ! Les tickets de caisses en disent beaucoup sur les clients : le moment de la journée de la commande, le nombre de produits achetés, si la commande est sur place ou à emporter… tout plein d’informations précieuses pour le créateur du Big Mac.

Thibault Labarre nous explique :

“Afin de pouvoir distinguer ces différents profils, nous exploitons la donnée client afin de créer un écosystème de données pour ensuite pouvoir les croiser : combien de personnes commandent en livraison, combien de personnes viennent seuls ? Et à quel moment de la journée ? Etc.”

Romain Girard complète en nous expliquant qu’il est “important de créer une acculturation entre les équipes data et business afin d’instaurer une pédagogie commune.”

Afin d’instaurer cette pédagogie commune, McDonald’s utilise un dashboard simple d’utilisation pour que tous les utilisateurs puissent comprendre les données de l’entreprise. “C’est en travaillant de manière agile que nos équipes peuvent communiquer efficacement autour des données. Nous avons mis en place notre stratégie data en 3 mois seulement grâce à cette méthode. C’est bizarre à dire, mais nous avons pris un format start-up afin de pouvoir tester et apprendre sur nos données rapidement.” exprime Thibault Labarre.

 

McDonald’s et l’avenir

L’aventure de McDonald’s et du Big Data n’est pas prête de s’arrêter ; le géant du fast food nous confirme que dans le prochains mois, la communication va beaucoup changer.

“Evidemment nous ne pouvons vous donner trop d’informations, mais sachez que dans les mois à venir, la communication de McDonald’s sera beaucoup plus centrée sur le consommateur et moins sur le produit en lui même.” nous confirme Romain Girard, “Venez comme vous êtes” parle directement au client et, c’est ce que nous recherchons à faire.”

Vers une vision métier des données : les révolutions data

Vers une vision métier des données : les révolutions data

L’usage des données massives fait par les Grands du Web dans les années 2000 a été une prise de conscience pour les entreprises : le Big Data est un levier de croissance et de compétitivité favorisant l’innovation.

Aujourd’hui, les entreprises se réorganisent autour de leurs données afin d’adopter une démarche dite “data-driven”. Une histoire constituée de plusieurs péripéties, qui tend enfin à trouver un dénouement.

Cet article évoque les différentes révolutions data entreprises ces dernières années jusqu’à aujourd’hui, pour tenter de maximiser la valeur métier des données.

 

Des architectures en silos

Dans les années 80, les Systèmes d’Information évoluent fortement. Des applications métier sont créées, des langages de programmation avancés surviennent et les bases de données relationnelles apparaissent. Toutes ces applications reposent sur des plateformes propriétaires, isolées du reste de l’écosystème informatique.

Pour ces raisons historiques et technologiques, les données internes d’une entreprise sont réparties dans des technologies diverses et des formats hétérogènes. S’ajoutent des problématiques organisationnelles, on parle alors d’effet tribu. Chaque département IT possède ses propres outils et implicitement, gère ses propres données pour son propre usage.

On assiste à une certaine thésaurisation de la donnée au sein des organisations. Pour appuyer ces propos, on évoque fréquemment la loi de Conway : “toute architecture reflète l’organisation qui l’a créée”. Ainsi, cette organisation, dite en silos, rend très complexe et onéreux de croiser des données provenant de deux systèmes différents.

La recherche d’une vision centralisée et complète des données de l’entreprise va mener les Systèmes d’Information vers une nouvelle révolution.

 

Le concept de « Data Warehouse »

À la fin des années 90, la Business Intelligence bat son plein. Pour des fins analytiques et dans le but de répondre à des questions stratégiques, le concept de data warehouse apparaît.

Pour ce faire, on va récupérer les données qui se trouvent dans des mainframes ou des bases de données relationnelles pour les faire transiter dans un ETL (Extract Transform Loader). Projetées dans un format dit pivot, les analystes et décideurs peuvent accéder aux données collectées et mises en forme pour répondre à des questions préétablies et des cas précis de réflexion. De la question, on tire un modèle de données !

Cette révolution s’accompagne toutefois de quelques problèmes… Utiliser les outils d’ETL a un certain coût et le hardware qui l’accompagne également. Le laps de temps écoulé entre la formalisation du besoin et le moment où se réceptionne le report est très chronophage. Une révolution qui vaut chère pour une efficacité perfectible.

 

La nouvelle révolution du data lake …

L’arrivée des data lakes renverse le précédent raisonnement. Le data lake permet de centraliser le stockage des données utiles à une organisation, indépendamment des sources, de leur format pour un coût de stockage très faible. On entrepose les données de l’entreprise sans présupposer de leur utilité dans le traitement d’un cas d’usage futur. Ce n’est qu’en fonction d’usage spécifique que l’on va sélectionner ces données brutes et les transformer en informations stratégiques.

Nous passons d’une logique “à priori” à une logique “à posteriori”. Cette révolution du data lake mise sur de nouvelles compétences et savoirs : des data scientists et data engineers capables de lancer des traitements sur les données et faire émerger des résultats beaucoup plus rapidement que dans le temps des data warehouses.

Nième avantage de cette terre promise, son coût. Souvent proposée de manière open-source, les data lakes sont peu chers ainsi que le hardware qui l’accompagne. On parle souvent de community hardware.

 

… Ou plutôt du data swamp

Des avantages certains sont présents avec la révolution du data lake mais ils s’accompagnent de nouveaux enjeux. L’expertise pour instancier et maintenir ces data lakes est rare et donc, coûteuse pour les entreprises. De plus, déverser jour après jour des données dans un data lake sans une gestion et une organisation efficace revêtent un risque fort de rendre l’infrastructure inutilisable. Les données seront alors perdus dans la masse.

Cette gestion des données s’accompagne de nouvelles questions liées à la réglementation des données (GDPR, Cnil, etc.) et la sécurité de celles-ci : des sujets déjà existants dans le monde du data warehouse. Trouver la bonne donnée pour le bon usage n’est pas encore chose aisée.

 

Le dénouement : construire une gouvernance des données

Les Grands du Web l’ont compris, centraliser ses données est une première étape mais n’est pas suffisante. Une dernière brique est nécessaire pour aller vers une démarche dite “data-driven” : construire une gouvernance data. Innover par la donnée demande une connaissance accrue de ses données.  Où sont stockées mes données ? Qui les utilise ? Dans quel but ? Comment sont-elles utilisées ?

Pour aider les professionnels de la data à cartographier et visualiser le cycle de vie des données, des nouveaux outils apparaissent : on les appelle Data Catalog . Implémentés au dessus des infrastructures data, ils permettent de créer un répertoire de métadonnées requêtable. Ils permettent d’acquérir une vision métier et techniques de ses données en centralisant l’ensemble des informations collectées. De la même façon que Google ne stocke pas les pages web mais ses métadonnées pour les référencer, les entreprises doivent stocker les métadonnées de leurs données pour faciliter l’exploitation et la découverte de celles-ci. Gartner le confirme dans son enquête “Data Catalog is the new black”, sans une gestion et une gouvernance des métadonnées des données de votre data lake, celui-ci sera considéré comme inefficace.

Grâce à ces nouveaux outils, la donnée devient un actif pour l’ensemble des employés. L’interface facile d’utilisation, ne nécessitant pas de compétences techniques, devient un moyen simple pour connaitre, organiser et gérer ses données. Le data catalog devient l’outil data collaboratif de référence dans l’entreprise.

Acquérir une vision d’ensemble de ses données et démarrer une gouvernance data pour mener des idéations devient ainsi possible.

Metacat : Netflix rend ses Big Data accessibles et utiles

Metacat : Netflix rend ses Big Data accessibles et utiles

Comme de nombreuses entreprises, Netflix dispose de nombreuses sources de données avec différents formats et de forts volumes de données. En tant que leader mondial du streaming vidéo, l’exploitation des données chez Netflix est, bien évidemment, un axe stratégique majeur. Compte tenu de cette diversité de sources de données, la plateforme vidéo souhaitait proposer un moyen de fédérer et d’interagir avec ces assets depuis un même outil. Cette recherche de solution a abouti à Metacat.

Cet article expose les motivations de la création de Metacat, un service de métadonnées ainsi destiné à faciliter la découverte, le traitement et la gestion des données de Netflix.

Retrouvez les précédents articles sur Google et AirBnB.

 

Les chiffres clés de Netflix

Netflix a parcouru un chemin considérable depuis la création de sa société de location de DVD, dans les années 1990. La consommation de vidéos sur la plateforme Netflix, représente 15 % de la bande passante mondiale. Mais Netflix, aujourd’hui, c’est aussi [1] [2] :

 

  • 130 millions d’abonnés payants à travers le monde (400 % d’augmentation depuis 2011)

  • 10 milliards de chiffres d’affaires, dont 403 millions de bénéfices

  • 100 milliards de capitalisations boursières, soit la somme de l’ensemble des premiers groupes de télévisions en Europe

  • 6 milliards d’investissements dans des créations originales (séries et cinéma).

Netflix, c’est également un entrepôt de données de 60 pétaoctets (60 millions de milliards d’octets), un véritable défi pour exploiter ces données et les fédérer.

 

Architecture de la plateforme Big Data de Netflixarchitecture metacat netflix

 

L’architecture de base de la plateforme Big Data de Netflix comprend trois services clés. Il s’agit du service d’exécution (Genie), du service de métadonnées (Metacat) et du service d’événements (Microbot).

 sources de données netflix metacat

 

Afin d’opérer entre les différents langages et sources de données, difficilement compatibles entre eux, est né Metacat. Cet outil agit comme une couche d’accès aux données et métadonnées depuis les data sources de Netflix.

Un service centralisé accessible par les utilisateurs de la donnée afin de faciliter leur découverte, leur traitement et gestion.

 

Metacat et ses fonctionnalités

Netflix dispose de requêteurs de données, tels que Hive, Pig ou Spark, non opérables ensemble. C’est en introduisant une couche d’abstraction commune que Netflix fournit à ses utilisateurs un accès aux données et ce, quelque soit leurs systèmes de stockage.

De plus, Metacat va jusqu’à simplifier le transfert de jeux de données d’un datastore à un autre.

 

Métadonnées métier

À la main et définies par les utilisateurs, des métadonnées d’ordre métier, en format libre – peuvent être ajoutées via Metacat. Les principales sont des informations de connexion, de configuration, des métriques ou encore les durées de vie de chaque jeux de données.

 

Data discovery

En créant Metacat, Netflix facilite la découverte des jeux de données de l’entreprise par ses consommateurs. L’outil publie des métadonnées de schéma et métier définies par ses utilisateurs dans Elasticsearch, facilitant ainsi la recherche en texte intégral d’informations dans les data sources.

 

Notification de modification de données et audit

En tant qu’outil transverse de l’ensemble des data stores, Metacat enregistre et notifie toutes les changements apportés sur les métadonnées et les données elles-même depuis les systèmes de stockage.

 

Metacat et l’avenir vu par Netflix

Selon Netflix, la version actuelle de Metacat n’est qu’une étape vers de nouvelles fonctionnalités sur lesquelles ils travaillent. Ils veulent encore améliorer la visualisation à un instant T des métadonnées. Ce système serait très utile pour la restauration.

Metacat, selon Netflix, devrait également pouvoir avoir une architecture enfichable. Ainsi, l’outil pourrait valider et garder l’intégrité des métadonnées. Ceci est lié au fait que les utilisateurs définissent des métadonnées sous forme libre. Netflix a donc besoin d’une validation en place qui peut être réalisée avant le stockage des métadonnées.

Avec la création de Metacat en outil de centralisation et d’exploration de données multi-sources et multi-formats pour les utilisateurs, Netflix a clairement effectué une avancée. Le développement de ce service en interne et adapté à l’ensemble des outils déjà utilisés par l’entreprise, a permis à Netflix de devenir Data Driven.

 

 

Sources

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Data Portal, l’outil qui a permis à AirBnB de devenir Data Centric

Data Portal, l’outil qui a permis à AirBnB de devenir Data Centric

AirBnB est une entreprise florissante. Face à son expansion rapide, AirBnB avait besoin d’opérer une véritable réflexion autour de la data et de son exploitation. De cette dynamique est né le Data Portal, un outil totalement Data Centric à la disposition des employés.

Cet article est le premier d’une série consacrée aux entreprises Data Centric. Nous mettrons en lumière des exemples réussis de démocratisation et de maîtrise des données au sein d’organisations inspirantes. Ces entreprises précurseurs démontrent l’ambition du data catalog de Zeenea : aider chaque structure à mieux comprendre et utiliser son patrimoine de données.

 

Airbnb aujourd’hui

En quelques années, AirBnB s’est imposé comme un leader de l’économie collaborative à travers le monde. Son succès en fait aujourd’hui un des premiers hôteliers de la planète.

En chiffres [1], cela représente :

  • 3 millions de logements recensés,

  • 65 000 villes répertoriées,

  • 190 pays disposant d’une offre AirBnB,

  • 150 millions d’utilisateurs.

La France est le second marché de l’entreprise derrière les Etats-Unis. Elle compte à elle seule plus de 300 000 logements.

 

Les réflexions qui ont menées au Data Portal

Lors d’une conférence menée en mai 2017, John Bodley, data engineer chez AirBnB, expose les nouvelles problématiques issues de la forte croissance des collaborateurs (+ de 3500 employés) et de l’explosion du nombre de données, à la fois issues des utilisateurs mais aussi des employés (+ de 200k tables dans leur Data Warehouse). Celui d’un paysage confus et non unifié qui ne permettait pas d’accéder à l’information toujours plus importante.

Comment marier un succès à un problème de gestion bien réel ? Celui de la data. Que faire de toutes ces informations collectées quotidiennement et de ce savoir tant au niveau utilisateur que collaborateur ? Comment les transformer en une force pour tous les employés d’airbnb ? Voici les questions qui ont mené à la création du data portal.

Au-delà de ces enjeux, une problématique de vision d’ensemble s’est imposée à l’entreprise.

Depuis sa création en 2008, AirBnB a toujours porté une grande attention à ses données et leur exploitation. C’est pourquoi, une équipe dédiée s’est mise en ordre de bataille pour développer un outil qui démocratiserait l’accès aux données au sein de l’entreprise. Leur travail s’est à la fois fondé sur la connaissance des analystes et leur capacité à comprendre les points critiques et sur celle des ingénieurs, à même de proposer une vision plus graphique de l’ensemble. Au cœur du projet, un sondage en profondeur des employés et de leurs problématiques a été mené.

De cette enquête est ressortie une constante : une difficulté à trouver les informations dont les collaborateurs avaient besoin pour travailler. La présence d’un savoir tribal, détenu par un certain groupe de personnes, est à la fois contre productif et peu fiable. Résultat : nécessité d’interroger des collègues, manque de confiance en l’information (validité de la data, impossibilité de savoir si les données étaient à jour) et en conséquence, création de nouvelles données « doublon » venant accroître la quantité astronomique déjà existante.

Pour répondre à ces enjeux, AirBnB a créé le Data Portal et l’a présenté au public en 2017.

 

Data Portal, le data catalog de Airbnb

Pour imager, le Data Portal pourrait se définir comme le croisement entre un moteur de recherche et un réseau social.

Il a été pensé pour centraliser absolument toutes les données recueillies par l’entreprise. Qu’elles proviennent des employés ou des utilisateurs. Le but du Data Portal est de pouvoir restituer ces informations, sous forme de graphiques, à n’importe quel employé qui en aurait besoin.

Ce système en self-service permet aux collaborateurs d’accéder par eux-mêmes aux informations nécessaires au développement de leur projet. Au-delà de la donnée en elle-même le Data Portal permet d’obtenir des métadonnées contextualisées. L’information est fournie avec un background qui permet de mieux valoriser la data et de le comprendre dans son ensemble.

Le Data Portal a été pensé dans une logique collaborative. Dans cette optique, il permet de visualiser, au-delà des données, toutes les interactions entre les différents collaborateurs de l’entreprise. Ainsi il est possible de savoir qui est relié à quelle donnée.

 

Data Portal, en quelques fonctionnalités

Le Data Portal propose différentes fonctionnalités pour couvrir l’accès aux données de manière simple, ludique et en offrant une expérience utilisateur optimale. On trouve des pages dédiées à chaque jeux de données où un nombre important de métadonnées sont reliées à celles-ci.

 

  • Recherche : Chris Williams, ingénieur et membre de l’équipe en charge du développement de l’outil, parle d’un fonctionnement « Google-esque ». La page de la recherche permet d’accéder rapidement aux données, à des graphiques ou encore aux personnes à l’origine de la data et aux groupes / équipes concernées.

  • Lineage : Il est également possible d’explorer la hiérarchisation des données en visualisant les données parents et les données enfants.

  • Collaboration : Toujours dans une logique de partage et de mise en place d’un outil collaboratif, les données peuvent être ajoutées aux favoris d’un utilisateur, épinglées dans un tableau d’équipe ou partagées via un lien externe. À l’instar d’un réseau social, chaque employé possède également une page de profil. L’outil étant accessible à tous les collaborateurs et se voulant totalement transparent, cela inclus tous les membres de la hiérarchie. Les anciens employés continuent de posséder un profil avec toutes les données créées ou utilisées. Toujours dans une logique de décloisonnement de l’information et d’abolition de la connaissance tribale.

  • Groupes : les équipes passent beaucoup de temps à échanger autour des mêmes données. Pour permettre à chacune de partager les informations plus rapidement et plus simplement, la possibilité de créer des groupes de travail a été mise en place sur le Data Portal. Grâce à ces pages, les membres d’une équipe peuvent organiser leurs données, y accéder facilement et favoriser le partage.

Au delà du Data Portal

Démocratiser les données a plusieurs vertus. En premier lieu, cela permet de ne pas créer de dépendance à l’information. Un système en « parapluie » fragilise l’équilibre de l’entreprise. Si l’information et la compréhension des données n’est détenue que par un seul groupe de personnes, le rapport de dépendance devient alors trop fort.

Par ailleurs, il est important de simplifier la compréhension des données pour que les collaborateurs puissent les exploiter au mieux.

Plus globalement, l’enjeu pour AirBnB est aussi d’améliorer la confiance dans les données, pour tous ses collaborateurs. Que chacun puisse être assuré de travailler avec les bonnes informations, mises à jour, etc.

AirBnB n’est pas dupe et l’équipe à l’origine du Data Portal sait que la prise en main de cet outil et son utilisation à bon escient prendront du temps. Chris Williams le dit en ces termes : « Même si demander à un collègue une information est facile, c’est totalement contre productif à plus large échelle ».

Changer ses habitudes, prendre le réflexe de consulter le portail plutôt que d’échanger en direct va demander un peu d’efforts aux collaborateurs.

 

La vision du Data Portal dans les temps

Pour favoriser la confiance dans les données fournies, l’équipe souhaite créer un système de certification des données. Il permettrait de certifier tant la data que la personne à l’origine de la certification. Du contenu certifié serait mis en valeur dans les résultats de recherche.

Avec le temps, AirBnB souhaiterait faire évoluer cet outil à différents niveaux :

 

  • Analyse du réseau afin de déterminer les données obsolètes.

  • Créer des alertes et des recommandations. Toujours dans une logique d’exploration, l’outil pourrait devenir encore plus intuitif en suggérant des contenus nouveaux ou des mises à jours de données consultées par un utilisateur.

  • Rendre les données ludiques. Créer un environnement attractif pour les employés en présentant par exemple le tableau le plus vu du mois etc.

Avec le Data Portal, AirBnB pousse l’exploitation des données au plus haut niveau. La démocratisation à tous les employés permet à la fois de les rendre plus autonomes et efficaces dans leur travail mais aussi de reconstruire la hiérarchie de l’entreprise. Plus transparente, elle devient également moins dépendante.

Le collaboratif prend le pas sur la notion de services dédiés. Et l’exploitation des données renforce la stratégie de l’entreprise, pour son évolution future. Une logique dans laquelle s’inscrit et promeut chez ses clients.

 

 

Sources

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow

Google Goods : l’outil de gestion des données de Google

Google Goods : l’outil de gestion des données de Google

Quand on s’appelle Google, la question des données est plus que centrale. Un nombre colossal d’informations est en effet généré chaque jour à travers le monde, par toutes les équipes de cet empire américain. C’est pour recouper, hiérarchiser et unifier les données que Google Goods, un catalogue centralisé de données, a été mis en place.

Cet article fait partie d’une série consacrée aux entreprises Data Driven. Nous mettons en lumière des exemples réussis de démocratisation et de maîtrise des données, au sein d’organisations inspirantes. Retrouvez l’exemple d’Airbnb sur ce lien. Ces entreprises précurseurs démontrent l’ambition que s’est donnée Zeenea et son data catalog : aider les organisations à mieux comprendre et utiliser son patrimoine de données.

 

Google en quelques chiffres

Le moteur de recherche le plus utilisé de la planète n’est plus vraiment à présenter. Mais que se cache-t-il derrière cette interface si familière ? Que représente Google en terme de part de marché, d’infrastructures, d’employés et de présence dans le monde ?

En 2018 Google c’etait [1] :

  • 90,6 % de part de marché dans le monde

  • 30 millions de sites indexés

  • 500 millions de nouvelles requêtes chaque jour

En terme d’infrastructure et d’emploi, Google représentait en 2017 [2] :

  • 70 053 employés

  • 21 bureaux dans 11 pays

  • 2 millions d’ordinateurs répartis dans 60 datacenter

  • 850 teraoctets pour stocker en cache toutes les pages indexées

Devant une telle envergure, la somme de données générées est forcément gigantesque. Face au constat de la redondance des données et du besoin de précision pour l’emploi de ces dernières, Google a mis en place Google Goods, un catalogue de données travaillant en toile de fond pour organiser et faciliter la compréhension des données.

 

Les réflexions qui ont menées à Google Goods

Google possède plus de 26 milliards de données internes [3]. Et cela seulement pour la data accessible à tous les membres de l’entreprise.

En prenant en compte les données sensibles recourant à des accès sécurisés, le nombre pourrait doubler. Cette somme de données engendre nécessairement des problèmes et interrogations que Google a répertorié pour concevoir son outil :

 

Une échelle de données titanesque

Considérant le chiffre annoncé précédemment, Google fait face à un problème non négligeable. La quantité de data et leur taille lui rend impossible un traitement de toutes les données. Il est donc primordial de pouvoir déterminer lesquelles sont utiles et lesquelles ignorer.

Le système exclut déjà un certain nombre d’informations jugées inutiles et parvient à déterminer certaines redondances. Il est ainsi possible de créer des chemins d’accès uniques vers des données, sans qu’elles ne soient stockées à différents endroits au sein du catalogue.

 

La variété des données

Les jeux de données sont stockés dans de nombreux formats et sur des systèmes de stockage très différents. Cela ajoute à la difficulté de créer une unification de la data.

Pour Goods, c’est un véritable challenge et un objectif crucial : proposer un moyen uniforme d’interroger et d’accéder à l’information sans que la complexité de l’infrastructure ne transparaisse.

 

La pertinence des données

Google estime supprimer chaque jour 1 million de données et en créer tout autant. Cela met l’accent sur la nécessité de prioriser les données et d’établir leur degré de pertinence.

Certaines sont cruciales dans des chaînes de traitement mais n’ont de valeur que quelques jours, d’autres ont une fin de vie programmée dont l’échéance peut être de plusieurs semaines à quelques heures.

 

Le caractère incertain des métadonnées

Beaucoup de données cataloguées sont issues de protocoles différents, rendant la certification des métadonnées complexe. Goods procède donc par tâtonnement afin de créer des hypothèses. Cela est dû au fait qu’il fonctionne de façon post hoc.

En effet, les collaborateurs ne sont pas amenés à changer leur façon de travailler. Il ne leur est pas demandé d’associer des jeux de données à des métadonnées lors de leur création. C’est à Goods de travailler en collectant et analysant les données pour les réunir et les clarifier, en vue d’un usage futur.

 

Une échelle de priorité

Après le travail de découverte et de catalogage, la question de la hiérarchisation se pose. L’enjeu est de pouvoir répondre à cette question : « qu’est-ce qui rend une donnée importante ? ». Et fournir une réponse est bien moins simple pour les données d’une entreprise que pour prioriser la recherche sur le web par exemple.

Pour tenter de mettre en place un classement pertinent, Goods se base sur les interactions entre les données, les métadonnées ainsi que d’autres critères. L’outil estime par exemple qu’une donnée est plus importante si son auteur y a associé une description. Ou si plusieurs équipes la consultent, l’utilisent ou l’annotent.

 

Analyser la sémantique de la donnée

Procéder à cette analyse permet notamment de mieux classifier et décrire la donnée dans l’outil de recherche. Elle peut ainsi répondre aux bonnes requêtes dans le catalogue. L’exemple donné dans l’article de référence sur Google Goods [3] : supposons le schéma d’un ensemble de données soit connu et que certains champs du schéma prennent des valeurs entières.

Grâce à une inférence sur le contenu de l’ensemble de données, l’utilisateur puisse identifier que ces valeurs entières sont des ID de points de repère géographiques connus pour ensuite, utiliser ce type de sémantique de contenu pour améliorer la recherche de données géographiques dans l’outil.

 

Fonctionnalités de Google Goods

Google Goods catalogue et analyse la data pour la présenter de manière unifiée. L’outil récolte les métadonnées de base et tente de les enrichir en analysant un certain nombre de paramètres. À force de visiter les données et les métadonnées, Goods s’enrichit et évolue.

Les principales fonctionnalités offertes aux utilisateurs sont :

 

Un moteur de recherche

À l’instar du Google que nous connaissons, Goods offre un moteur de recherche fonctionnant par mot clé afin d’interroger un jeu de données.

C’est le moment où l’enjeu de hiérarchisation des données se met en place. Le moteur de recherche propose de la data classée selon différents critères comme le nombre de chaînes de traitement impliquées, la présence ou non d’une description, etc.

 

Page de présentation des données

Chaque donnée dispose d’une page réunissant le maximum d’informations. Considérant que certaines données peuvent être reliées à des milliers d’autres, Google compresse en amont les data les plus pharaoniques pour les restituer de manière plus digeste sur la page de présentation. Si la version compressée reste trop imposante, les informations exposées ne retiennent que les entrées les plus récentes.

 

Tableaux d’équipes

Goods crée des tableaux permettant de diffuser toutes les données générées par une équipe. Cela permet d’obtenir différentes métriques et de faire le lien avec d’autres tableaux par exemple. Le tableau est actualisé à chaque fois que Goods met à jour les métadonnées. Le tableau peut être facilement intégré à différents documents pour que les équipes puissent le partager.

Par ailleurs, il est également possible de mettre en place des actions de monitorage et des alertes sur certaines données. Goods est en charge des vérifications et peut avertir les équipes en cas d’alerte.

 

Utilisation de Goods par les collaborateurs de Google

Au fil du temps, les équipes de Google ont réalisé que l’utilisation de son outil ainsi que son champ d’application, n’étaient pas forcément ceux auxquels l’entreprise s’attendait.

Le géant a ainsi pu déterminer que les usages principaux de Goods par les collaborateurs ainsi que leurs fonctionnalités favorites étaient :

 

Audit protocol buffer

Protocol buffer est un format de sérialisation doté d’un langage de description d’interface développé par Google. Il est largement utilisé chez Google pour le stockage et l’échange de toute sorte de structures d’informations.

Certains processus contiennent des informations personnelles et appartiennent de fait à des politiques de confidentialité particulières. L’audit de ces protocoles permet d’alerter les propriétaires de ces données en cas d’entrave à la confidentialité.

 

Récupération des données

Les ingénieurs sont amenés à générer de nombreuses données dans le cadre de leurs tests et oublient souvent leur localisation lorsqu’ils ont besoin d’y accéder à nouveau. Grâce au moteur de recherche, ils peuvent facilement les retrouver.

 

Meilleure compréhension du Code Legacy

Il n’est pas simple de trouver des informations à jour concernant le code ou les jeux de données. Goods fournit des graphiques que les ingénieurs peuvent utiliser pour remonter le fil des précédentes exécutions de codes, ainsi que les jeux de données en entrée et en sortie et trouver la logique qui les lie.

 

Utilisation du système d’annotation

Le système de bookmark des pages de données est totalement adopté pour retrouver plus vite les informations importantes et les partager facilement.

 

Utilisation des marques pages

Il est possible d’annoter les données et de leur attribuer différents degrés de confidentialité. Cela permet aux autres membres de Google de mieux appréhender les données qu’ils ont en face d’eux.

Avec Goods, Google parvient à hiérarchiser et unifier l’accès aux données pour toutes ses équipes. Le système se veut non intrusif et fonctionne donc en continu et de manière invisible pour les utilisateurs, afin de leur restituer des données organisées et explicitées.Grâce à cela, la société améliore les performances des équipes en évitant les redondances. Elle économise des ressources et accélère l’accès aux données essentielles à la croissance et au développement de l’entreprise.

 

 

[1] Le blog du modérateur : https://www.blogdumoderateur.com/chiffres-google/
[2] Web Rank Info : https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

Vous voulez en savoir plus sur les solutions de data discovery ?

Téléchargez notre livre blanc : « Le Data Discovery vu par les Géants du Web »

Dans ce livre blanc, nous faisons un focus sur le contexte et la mise en œuvre des solutions de data discovery développées par les grandes entreprises du web, dont certaines font partie du célèbre «Big Five» ou «GAFAM» (Google, Apple, Facebook, Amazon, Microsoft).

data-discovery-mockup-FR-no-shadow