Le knowledge graph ou l’art de rendre l’information intelligible

 

 

 

 

Knowledge_graph_1

 

 

 

« Ce serait merveilleux que Google comprenne que vos termes de recherche ne sont pas que des mots, mais qu’ils correspondent à des choses concrètes, comme un bâtiment ou un animal, et pas simplement à des chaînes de caractères ».

 C’est ce qu’avait dit Jack Menzel, le Directeur des produits pour Google Search, et c’est ce qui arriva en 2012, quand Google fut un des premiers à lancer et développer sa nouvelle extension connue sous le nom de knowledge graph ou littéralement : le graphe de connaissances.

 

Mais qu’est-ce que le knowledge graph exactement ?

Le Knowledge Graph est une compilation d’informations sémantiques provenant de nombreuses sources, dont Wikidata (base de données interne à Google), Wikipédia, ou le World Factbook de la CIA. En plus des informations textuelles, celui-ci condense de nombreuses autres données structurées, incluant des hyperliens vers d’autres sites. Il s’agit d’une base de connaissances compilée par Google à partir d’un ensemble de ressources qui sont pour la plupart accessibles sur internet. Elle résulte des fonctionnalités intelligentes du moteur de recherche pour mettre en relation les résultats de la SERP et les requêtes.

Aujourd’hui, le Knowledge Graph permet de donner des informations sur des personnalités publiques, des entreprises, des dates historiques, des lieux présents sur Google Maps, des adresses emblématiques, la météo, les résultats sportifs, des recettes, des images provenant de Google Images, etc.

 

 

Pour tout utilisateur, le Knowledge Graph de Google est représenté par le bloc d’informations directement visible sur la page de recherche qui apparaît du côté droit, en même temps que les résultats affichés lors d’une requête. Ce bloc possède un nom : le Knowledge Panel. Il contient un maximum d’informations pertinentes et essentielles sur le sujet recherché par l’utilisateur, toutes étant tirées du Knowledge Graph.

 

Pour Google, comme pour les utilisateurs, le Knowledge Graph est un outil à la fois simple et puissant. Les utilisateurs accèdent aux informations essentielles de leurs requêtes sans avoir à se rediriger vers d’autres services que Google.

En plus de ces informations, il propose des liens pour en savoir plus sur des sujets proches de celui recherché et opère également quand cela est nécessaire, une désambiguation de la requête demandée. Par exemple, pour la requête « avocat », cherchez-vous des informations sur le métier ou sur le fruit ?

Le knowledge graph de Google contient plus de 500 millions d’objets, ainsi que plus de 3,5 milliards de faits sur ces différents objets et les relations entre eux. 

Il améliore la recherche Google de trois manières principales :


– Trouver le bon résultat
 : une recherche non seulement basée sur des mots-clés mais aussi sur leur signification.

– Obtenir le meilleur résumé : recueillir les informations les plus pertinentes à partir de diverses sources en fonction de l’intention de l’utilisateur.

– Approfondir et élargir la recherche : découvrez plus que ce que vous attendiez grâce à des suggestions pertinentes.

 

 

 

Un exemple ?

Si vous recherchez une personnalité sur Google, comme Elon Musk, le Knowledge Graph affichera un résumé de son profil : son nom, son métier, une courte biographie, les dates importantes de sa vie, ses œuvres majeures et les recherches généralement associées à cette requête. La recherche d’un film qui vient de sortir au cinéma donnera son affiche, des critiques, et des horaires de projection pour votre cinéma local (si la localisation est activée sur l’appareil) sous la forme d’un carrousel interactif situé en haut des résultats de recherche.

 

 

Bien que cette représentation graphique de la connaissance ne soit pas récente, elle a gagné en popularité et est aujourd’hui un élément clé pour des applications d’intelligence artificielle liées à la recherche rapide et contextuelle d’informations ainsi qu’à la prise de décision, et qui nécessitent de comprendre le langage humain en leur apportant une dimension sémantique :

 

  • La recherche d’information contextualisée, l’analyse de textes (text analytics). Cela permet d’avoir une vue holistique de l’information concernant un sujet donné en enrichissant les résultats.
  • Les systèmes de recommandation proactifs (quel produit ou quel film proposer mais aussi quel document lire, quel collègue contacter…).
  • Les systèmes de « question answering ». Les graphes de connaissance sont utilisés pour répondre aux questions exprimées en langage naturel.
  • Les robots conversationnels ou chabots. On utilise un graphe de connaissance pour lier des mots et des concepts afin d’apporter la réponse la plus pertinente à la question de l’utilisateur.

Les Knowledge Graphs affrontent des défis majeurs, tels que la gouvernance des données, mais peuvent aussi tout à fait servir de substrat numérique pour unifier la philosophie de l’acquisition et de l’organisation des connaissances à la pratique de la gestion des données à l’ère numérique.

En somme, le Knowledge Graph offre la possibilité à d’autres technologies d’accélérer leur croissance et permet à l’Homme de prendre la mesure de ses propres connaissances.

Les graphiques de Google, Microsoft, Amazon, Facebook ou encore LindedIn sont certainement les plus connus. 

 

Et dans la santé alors ?

 

Comment, par exemple, les données peuvent-elles aider à percer les secrets d’une maladie ou repousser les limites de la science pour découvrir et développer de nouveaux médicaments ?

 

« Chez AstraZeneca, nous exploitons les données et la technologie pour maximiser le temps nécessaire à la découverte et à la livraison de nouveaux médicaments potentiels. À l’heure actuelle, nous intégrons la science des données et l’intelligence artificielle (IA) dans notre R&D pour permettre à nos scientifiques de repousser les limites de la science pour fournir des médicaments qui changent la vie.

La science des données et l’IA ont le potentiel de transformer la façon dont nous découvrons et développons de nouveaux médicaments – en transformant la science-fiction d’hier en réalité d’aujourd’hui dans le but de permettre la traduction de la science innovante en médicaments qui changent la vie. »

Jim Weatherall, Vice-président, Science des données et IA, R&D

 

Il apparait ainsi aujourd’hui que les knowledge graphs ou graphiques de connaissances peuvent aider à la compréhension d’une maladie en rassemblant, analysant les différentes données et informations et en repérant les connexions entre des milliers de sources différentes pour trouver LA réponse.

 

L’utilisation des knowledge graphs et plus largement cette culture axée sur les données, aide aujourd’hui les plus grands acteurs de la santé à mieux comprendre la maladie, à identifier les cibles médicamenteuses avec une probabilité de succès plus élevée, à recruter et à concevoir de meilleurs essais cliniques et, nous l’espérons, à accélérer la façon dont ils conçoivent, développent et fabriquent de nouveaux médicaments car chaque année, la quantité d’informations et de données scientifiques disponibles pour les chercheurs augmente et cela devient très compliqué de décider si telle molécule candidate vaut la peine d’être développée.

 

Ainsi, Chez AstraZeneca, ils commencent maintenant grâce à l’intelligence artificielle et à ces graphs, à exploiter ces vastes réseaux de données scientifiques pour donner à leurs scientifiques les informations dont ils ont besoin sur les gènes, les protéines, les maladies et les médicaments, et leurs relations – comment ils interagissent, travaillent ensemble ou s’opposent, espérant ainsi tirer des conclusions meilleures et plus rapides que s’ils analysent toutes ces données à la main.  Les graphiques de connaissances permettent alors aux chercheurs de poser des questions clés sur les gènes, les maladies, les médicaments et les informations sur l’innocuité afin d’identifier et de hiérarchiser les cibles médicamenteuses. Et, à mesure que les données et les connaissances continuent d’évoluer, les graphiques évolueront également, ce qui signifie que chaque nouvelle expérience bénéficiera de tout ce qu’ils ont appris auparavant.

 

A l’instar de Google ou Amazon, ils cherchent même à développer des graphiques de connaissances personnalisés qui apportent la bonne information au bon scientifique, au bon moment afin que chacun puisse jouer son rôle dans l’avancement de notre compréhension et répondre aux défis suivants :

 

  • Faire progresser la recherche en génomique avec les mégadonnées et l’IA pour pouvoir espérer identifier les variantes, gènes, voies ou autres parties du génome susceptibles de provoquer une maladie, prédire sa progression et sa réponse au traitement.  Cette richesse de données génomiques couplée à l’application experte permet de se concentrer sur l’analyse et l’interprétation des données pour faire avancer la science.

 

  • Utiliser l’IA pour tirer le meilleur parti de chaque expérience avec la construction de modèles d’apprentissage automatique (machine learning) et d’apprentissage en profondeur (deep learning).

 

  • Au-delà de la compréhension de la maladie, permettre aux scientifiques d’en savoir plus sur les données d’imagerie et d’accélérer la conception des essais cliniques.

 

Knowledge_graph_4

 

Par exemple, toujours dans le cas d’AstraZeneca, une raison courante pour laquelle un nouveau médicament potentiel échoue au cours de son développement est qu’il cause des dommages au foie. Mais il est difficile de prédire la toxicité hépatique de manière préclinique. Pour résoudre ce problème, ils ont créé des modèles qui adoptent une approche bayésienne de l’apprentissage automatique, c’est-à-dire qui adoptent une approche probabiliste de l’inférence. Les modèles analysent les données de nombreuses expériences d’innocuité pour prédire si un nouveau médicament potentiel est susceptible de causer des lésions hépatiques, et capturent de manière cruciale l’incertitude de chaque estimation dans une soi-disant distribution prédictive postérieure. Cela améliore la prise de décision, aidant à garantir que seuls les médicaments ayant des effets secondaires acceptables progressent.

 

Ceci et de nombreuses autres applications passionnantes pour l’IA signifient que nous apprenons où nous pouvons mieux exploiter ces nouvelles technologies et automatiser davantage les processus, libérant ainsi plus de temps pour que les scientifiques fassent ce qu’ils font le mieux – repousser les limites de la science pour fournir des médicaments qui changent la vie.