knowledge-graphs

Depuis quelques années, les knowledge graphs nous entourent… Que ce soient par des expériences d’achat personnalisées via des recommandations en ligne sur des sites web tels que Amazon, Zalando, ou par notre moteur de recherche préféré Google.

Cependant, ce concept reste encore bien souvent un challenge pour la plupart des responsables data et analytics qui tente d’agréger et lier leurs actifs d’entreprise afin d’en tirer profit à l’instar de ces géants du web.

Pour appuyer ce constat, Gartner a déclaré dans leur article “How to Build Knowledge Graphs That Enable AI-Driven Enterprise Applications” que les « Data and analytics leaders are encountering increased hype around knowledge graphs, but struggle to find meaningful use cases that can secure business buy-in ».

Dans cet article, nous définirons ce qu’est le concept de knowledge graph en l’illustrant avec l’exemple de Google puis, nous mettrons en lumière sa puissance intégrée à un data catalog.

Qu’est-ce qu’un knowledge graph exactement ?

Selon GitHub, un knowledge graph est un type d’ontologie qui décrit les connaissances en termes d’entités et de leurs relations de manière dynamique et automatisée. Contrairement aux ontologies statiques, qui sont très difficiles à maintenir.

Voici d’autres définitions d’un knowledge graph proposées par différents experts : 

  • Un « moyen de stocker et d’utiliser ses données, qui permet aux personnes et aux machines de mieux exploiter les connexions dans leurs jeux de données ». (Datanami)

     

  • Une « base de données qui stocke des informations dans un format graphique – et, surtout, peut être utilisée pour générer une représentation graphique des relations entre n’importe lequel de ses points de données ». (Forbes)
  • « Encyclopédies du monde sémantique ». (Forbes)

Grâce à des algorithmes de machine learning, un knowledge graph fournit une structure pour toutes vos données et permet la création de relations multilatérales dans l’ensemble de vos sources de données. 

La fluidité de cette structure s’accroît au fur et à mesure que de nouvelles données sont introduites, ce qui permet de créer plus de relations et d’ajouter plus de contexte, et aider vos équipes de données à prendre des décisions éclairées avec des connexions que vous n’auriez peut-être jamais trouvées.

L’idée d’un knowledge graph est de construire un réseau d’objets et, plus important encore, de créer des relations sémantiques ou fonctionnelles entre les différents actifs. 

Dans un data catalog, un knowledge graph est donc ce qui représente différents concepts et relie les objets entre eux par des liens sémantiques ou statiques.

 

Exemple de Google 

L’algorithme de Google utilise ce système pour recueillir et fournir aux utilisateurs finaux des informations pertinentes pour leurs requêtes. Le knowledge graph de Google contient plus de 500 millions d’objets, ainsi que plus de 3,5 milliards de faits sur ces différents objets et les relations entre eux. 

Le knowledge graph améliore la recherche Google de trois manières principales :

  • Trouver le bon résultat : une recherche non seulement basée sur des mots-clés mais aussi sur leur signification.
  • Obtenir le meilleur résumé : recueillir les informations les plus pertinentes à partir de diverses sources en fonction de l’intention de l’utilisateur.
  • Approfondir et élargir la recherche : découvrez plus que ce que vous attendiez grâce à des suggestions pertinentes.
    knowledge-graph

    Comment les knowledge graphs renforcent-ils l’usage des data catalogs ?

    Grâce à un data catalog, les knowledge graphs peuvent aider votre entreprise dans sa stratégie data en proposant :

    Des résultats de recherche riches et approfondis

    Aujourd’hui, de nombreux moteurs de recherche utilisent de multiples knowledge graphs afin d’aller au-delà de la recherche basée sur des mots-clés. Les knowledge graphs permettent à aux moteurs de recherche de comprendre les concepts, les entités et les relations entre eux. Les avantages sont les suivants :

    • La possibilité de fournir des résultats plus profonds et plus pertinents, y compris des faits et des relations, plutôt que de simples documents,

    • La possibilité de former des recherches sous forme de questions ou de phrases – plutôt que de liste de mots clés,

    • La capacité à comprendre des recherches complexes qui se réfèrent à des connaissances trouvées dans plusieurs éléments en utilisant les relations définies dans le graph.

    Optimisation du data discovery

    Les données d’entreprise se déplacent d’un endroit à l’autre à la vitesse de la lumière, et sont stockées dans diverses sources de données et applications de stockage. Les employés et les partenaires accèdent à ces données de partout et à tout moment. Identifier, localiser et classer vos données afin de les protéger et d’en tirer des informations devrait donc être la priorité !

    Les avantages des knowledge graphs pour le data discovery sont notamment les suivants :

    • Une meilleure compréhension des données de l’entreprise, où elles se trouvent, qui peut y accéder et où, et comment elles seront transmises,
    • Classification automatique des données en fonction du contexte,
    • Gestion des risques et respect de la réglementation,
    • Visibilité complète des données,
    • Identification, classification et suivi des données sensibles,
    • La capacité d’appliquer des contrôles de protection aux données en temps réel sur la base de politiques et de facteurs contextuels prédéfinis,
    • Évaluer correctement l’ensemble des données.

    D’une part, elle aide à mettre en œuvre les mesures de sécurité appropriées pour prévenir la perte de données sensibles et éviter des conséquences financières ou de réputation  pour l’entreprise. D’autre part, elle permet aux équipes d’approfondir le contexte des données afin d’identifier les éléments spécifiques qui révèlent les réponses et de trouver des moyens de répondre à vos questions.

     

    Des recommandations pertinentes

    Comme mentionné dans l’introduction, les services de recommandation sont désormais une composante familière de nombreux magasins en ligne, assistants personnels et plateformes digitales.

    Les recommandations doivent adopter une approche basée sur le contenu. Dans un data catalog, les capacités de machine learning combinées à un knowledge graph, pourront détecter certains types de données, appliquer des tags ou des règles statistiques sur les données pour exécuter des suggestions d’informations efficaces et intelligentes.

    Cette capacité est également connue sous le nom de “data pattern recognition” (reconnaissance de pattern). Elle consiste à pouvoir identifier des actifs similaires et à s’appuyer sur des algorithmes statistiques et des capacités de ML qui sont dérivés d’autres systèmes.

    Ce système de reconnaissance de pattern aide les responsables data à gérer leurs métadonnées :

    • Identifier les doublons et copier les métadonnées
    • Détecter les types de données logiques (e-mails, ville, adresses, etc.)
    • Suggérer des valeurs d’attribut (reconnaître des modèles de documentation à appliquer à un objet similaire ou à un nouvel objet)
    • Suggérer des liens – liens sémantiques ou de lineage
    • Détecter les erreurs potentielles afin d’améliorer la qualité et la pertinence du catalogue

    L’idée est d’utiliser certaines techniques dérivées de recommandations, basées sur le contenu que l’on trouve dans les catalogues d’usage standard. Lorsque l’utilisateur a trouvé quelque chose, le catalogue lui propose des alternatives basées à la fois sur son profil et sur la reconnaissance de patterns.

    Certains cas d’usage d’un data catalog à l’aide d’un knowledge graph

    • Rassembler les biens qui ont été utilisés ou liés aux causes d’échec des projets digitales.
    • Trouver des actifs ayant un intérêt commun pour la sortie de nouveaux produits pour le département marketing.
    • Générer une vue à 360° des personnes et entreprises pour le service commercial.
    • Faire correspondre les besoins de l’entreprise aux personnes et aux projets pour les ressources humaines.
    • Trouver des réglementations relatives à des contrats et des investissements spécifiques au sein du département financier.

    Conclusion

    Avec l’augmentation constante des données dans les entreprises, organiser ses informations sans stratégie signifie ne pas pouvoir rester compétitif et pertinent dans cette course pour la digitalisation. Pour éviter le redoutable effet de « boîte noire », il est essentiel de veiller à ce que votre data catalog ait un knowledge graph d’entreprise.

    Grâce à un knowledge graph combiné à l’IA et aux algorithmes de machine learning, vos données seront mieux contextualisées et vous permettront non seulement de découvrir des données plus profondes et subtiles, mais aussi de prendre des décisions plus intelligentes sur le long terme.

    Pour plus d’informations sur le knowledge graph, voici un article très intéressant par l’analyste Gartner, Timm Grosser : « Linked Data for Analytics?« 

    Démarrez avec Zeenea Data Catalog

    Zeenea est une solution 100% cloud, disponible partout dans le monde, en quelques clics. En choisissant Zeenea Data Catalog, maîtrisez les coûts liés à l’implémentation et à la maintenance d’un data catalog tout en simplifiant son accès par vos équipes.

    Les mécanismes d’alimentation automatique, ainsi que les algorithmes de suggestion et de correction, permettent de réduire le coût global du catalogue, et de garantir la qualité des informations qu’il contient pour vos équipes data en un temps record.