Un moteur de recherche pour que les robots puissent mieux se débrouiller dans le monde (Ph. Kirsty Komuso via Flickr CC BY 2.0)
Comment servir une tasse de thé à un humain ? Comment déplacer des œufs sans les casser ? Quels gestes faire pour passer l’aspirateur dans les coins ?… Voilà des questions qui ne nous ressemblent pas. Et pour cause, ce sont les robots qui se les posent. Car pour ces machines, toute action commandée par une personne est un casse-tête à peine compréhensible s’il n’a pas été entraîné spécifiquement pour l’accomplir. Aussi, des chercheurs de l’université de Stanford ont eu l’idée de bâtir un moteur de recherche à l’adresse des robots afin de les aider à comprendre les requêtes humaines et à planifier les actes qui en découlent. Son nom : RoboBrain.
C’est dans
un article mis en ligne le 1er décembre dernier dans le site arXiv que l’équipe dirigée par Ashutosh Saxena du Département de sciences informatiques de Stanford (Etats-Unis) a dévoilé son projet : il vise à créer une base de données interactive et multimédia permettant à chaque robot de télécharger un ensemble d’instructions pour mener à bien une tâche qu’il n’a pas apprise. Une sorte de SIRI (le moteur de recherche vocal de l’iPhone) a usage robotique, en prévision de la diffusion massive de ces cerveaux électroniques sur pattes (ou roues) dans les années à venir.
COMMENT LE ROBOT VA-T-IL S’Y PRENDRE POUR SERVIR UNE TASSE DE THÉ ?
Et le défi n’est pas mince ! Car s’il nous est facile d’interpréter les réponses fournies par les moteurs de recherche sous forme multi-modale (textes, vidéos, animations, illustrations, sons) et d’en extraire le savoir recherché, il en va tout autrement pour les robots : la réponse à une requête doit contenir une série d’instructions extrêmement détaillées sur chaque type d’action qu’il doit accomplir, en prenant en compte la nature des objets à manipuler, le contexte physique où doit se dérouler l’action, et le type d’interaction qu’il convient d’avoir avec l’humain.
Les chercheurs donnent l’exemple d’une situation où l’on dit à un robot « sers-moi une tasse de thé du thermos ». Le robot pourrait alors communiquer cette expression orale à RoboBrain lequel ferait appel à un système en ligne de reconnaissance de la parole, puis à un système d’interprétation des mots clés de la phrase (préparer, tasse, thé, thermos).
Le système renverrait ensuite au robot des connaissances lui permettant d’élaborer un plan d’action dans le contexte particulier où il se trouve : se déplacer vers la cuisine, saisir une tasse vide, la mettre dans le bon sens, verser le thé du thermos sans dépasser le bord, rapporter la tasse pleine et la poser sur une surface de type « table » près de l’humain. Les chercheurs illustrent ce processus ainsi :
Le système fonctionne déjà mais pour des tâches simples, comme déplacer une barquette d’œufs sans en casser aucun. Pour cela, la structure de RoboBrain est conçue comme un graphe (illustration ci-dessous) liant des nœuds par des arrêtes. Chaque nœud contient sous forme visuelle ou descriptive ou encore symbolique une connaissance : par exemple, des image de tasses de thé, des instructions indiquant qu’il faut laisser une distance entre la surface du liquide et le bord du récipient, des images de tables, des instructions de déplacement, la symbolisation d’actes humains à prendre en compte, etc.
Représentation du graphe de RoboBrain en novembre 2014 : 50 000 nœuds et 100 000 arêtes (Ph. Ashutosh Saxena et al.).
RoboBrain contient déjà 50 000 nœuds de ce type, et peut grâce à son propre système d’intelligence artificielle s’enrichir de nouveaux éléments glanés sur le Web ou sur des bases de données robotiques déjà construites par des laboratoires d’informatiques, voire intégrer de nouvelles connaissances que des robots lui envoient. Il contient aussi 100 000 arêtes liant ces nœuds, par exemple, le nœud « table » est lié au nœud « chaise » (et « assiette », « verre », etc.), à la représentation d’un humain attablé, au schéma de mouvement des bras d’un humain en train de manger, etc.
Le cas particulier illustré par le zoom représente l’explication à l’adresse d’un robot de l’utilisation d’une souris, par la mise en relation entre images, symboles d’action, mots et poses humaines (Ph. Ashutosh Saxena et al.).
Quand le robot envoie sa requête à RoboBain, celui-ci doit alors sélectionner les nœuds et leurs arêtes pertinentes symbolisant la manière dont les actions se succèdent. Il renvoie alors ce sous-graphe au robot de sorte qu’il apprenne avec son propre système d’intelligence artificielle la tache qu’on lui demande, et qu’il puisse la planifier.
Il va sans dire que le projet RoboBrain est immensément complexe. Notamment à cause de l’hétérogénéité des bases de données connectées à Internet, des différences de conception entre les systèmes d’intelligence artificielle de chaque robot et les particularités matérielles de ceux-ci (jambes, roues, capteurs, effecteurs, etc.). Mais il est ouvert (en open source) afin d’inciter les autres chercheurs en robotique à venir le compléter et l’affiner.
Román Ikonicoff
> Lire également dans le site des Grandes Archives de Science & Vie :
- Robots : leur intelligence dépasse déjà la nôtre – S&V n°1166 – 2014 – Peu à peu et sans grandes vagues, l’intelligence artificielle et la robotique sont sorties de l’échec relatif des années 1980 pour finir par devenir des acteurs essentiels dans nos activités. Ils nous dépassent déjà.
- Robot : tu ne tueras point ! – S&V n°1133 – 2012 – Les robots font ce qu’on leur dit de faire. Mais ils n’ont aucune éthique ! Dans la perspective d’une arrivée massive de ces machines dans l’espace public et privé, les chercheurs tentent de les doter d’une morale, à l’aide de programmes inspirés par des principes philosophiques.