Interprète F/LSF 3.0 sur Xbox 360

photo-kinectAu départ il y a un brevet déposé par Microsoft en février 2009 présentant Kinect : un système de reconnaissance doté d’une caméra utilisant des techniques d’interaction et branché sur la console Xbox 360.

Son principe est simple : vous pouvez interagir avec le jeu sélectionné grâce à la  reconnaissance des mouvements. On peut ainsi jouer sans aucune manette ni périphérique autre que son propre corps. Avec cette caméra, kinect détecte vos mouvements et vous pouvez skier, courir, participer à un match de basket sans tenir de joystick, vous êtes réellement dans le jeu.

Ludique ? Certainement car qu’à la différence de la Wii de Nintendo, vous avez les mains libres.
Mais pas uniquement. En effet cette particularité technologique a permis d’ouvrir un nouveau champ de recherche vers le monde du handicap en général et celui de la surdité en particulier.

Ainsi les chercheurs de Microsoft Asia et ceux de l’Institute of Computing Technology de la Chinese Academy of Science ont collaboré pour mettre en place un joli projet, l’objectif étant de concevoir un système capable de traduire les langues des signes en écriture ou en voix de synthèse, afin de permettre à ces personnes de communiquer aisément avec ceux qui ne connaissent pas leur langue et vice versa.

La façon dont le système fonctionne est assez astucieuse. En enregistrant puis en normalisant les mouvements de la langue des signes, le système utilise un algorithme pour déterminer l’alignement du mouvement de la trajectoire 3D. Une fois que la machine a assimilé les données visuelles, elle essaye de les faire correspondre aux mots qu’elle connaît par ordre de pertinence via son dictionnaire interne. A l’inverse, le système peut aussi traduire les textes sous la forme d’avatars signeurs qui apparaissent à l’écran.

Les 1ers essais en 2012

Pour l’instant, seule l’ASL (langue des signes américaine) est au programme mais il est prévu qu’un grand nombre de langues des signes soient implémentées une à une afin que ce traducteur profite à une majorité de personnes sourdes ou malentendantes.

Autre évolution possible : les chercheurs espèrent que cette technologie permettra un jour aux personnes sourdes d’interagir avec leur ordinateur et ou leur smartphone en utilisant leur propre langue, comme nous  utilisons déjà, depuis quelques années, la reconnaissance vocale de Google Now ou de Siri d’Apple.
Mais cela signifie, au préalable, que les ordinateurs et consoles soient capables de décrypter les langues des signes et d’interagir en conséquence.

Le système développé par Microsoft Asia en Juillet 2013

« Nous considérons que les technologies de l’information devraient être utilisées pour améliorer la vie quotidienne de tous », explique Guobin Wu, responsable de programme de recherche chez Microsoft Research Asia. « Même s’il ne s’agit encore que d’un projet de recherche, nous espérons qu’il sera bientôt possible de mettre en place un outil interactif pour défier la frontière qui nous sépare les sourds et malentendants ».

Il faut, bien sur, saluer ce projet : non seulement il cherche à améliorer la communication entre sourds et entendants mais surtout il consacre la valeur des langues des signes, leur capacité à transmettre des messages, des idées, des concepts. Il les considère comme de vraies langues qu’on peut traiter et traduire comme d’autres langues orales telles que l’anglais, le chinois, l’espagnol…
[Je préfère d’ailleurs ce type de recherches à celles sur la « réparation » de l’oreille via les implants cochléaires qui à l’inverse nient tout intérêt aux langues des signes, se focalisant sur l’oreille cassée et le nécessaire passage par l’oralisme pour communiquer.]
Néanmoins l’efficacité de ces technologies est encore limitée et je doute que ce système puisse traduire fidèlement et agréablement un long discours.

En effet les langues des signes sont vivantes, complexes. Elles ne sont pas qu’une succession de signes. Elles possèdent leur propre syntaxe qui est intimement liée à la perception visuelle, puisque cette langue répond à une logique visuelle et non auditive. Ainsi la grammaire de la LSF n’est pas identique à celle du français (par exemple la place des mots dans la phrase n’est pas la même). Elle se construit comme un plan au cinéma. D’abord le temps (passé-présent-futur), ensuite le lieu (où cela se passe-t-il ? ), puis les acteurs (qui ? ) et enfin l’action (le verbe).

Les signes sont basés sur l’utilisation des mains mais aussi du regard et de l’espace, des expressions du visage (il est admis que les langues des signes sont composées de 5 paramètres) : les configurations des mains, leurs emplacements, leurs orientations et leurs mouvements forment des signes équivalents à des mots disposés devant soi comme sur une scène de théâtre. Les emplacements de ces signes, ainsi que la direction du regard, permettent de visualiser les relations (actif, passif ?), le temps (signes tournés vers l’arrière pour le passé, vers l’avant pour le futur). Le visage et le mouvement des épaules servent aussi à exprimer les nuances du discours par exemple l’ironie, le doute, la fermeté…

Les caméras ont-elles aujourd’hui la précision et la finesse nécessaires pour détecter tous ces paramètres ? Les algorithmes sont-ils assez élaborés pour déterminer avec exactitude l’intention du locuteur ? A voir…
Au mieux, aujourd’hui ce système pourrait sans doute traduire quelques signes simples en mots, quelques phrases basiques (sujet/verbe/complément).
Néanmoins les perspectives sont prometteuses notamment avec l’arrivée des « lunettes intelligentes« .

A noter que ces chercheurs asiatiques ne sont pas les seuls à travailler sur ce projet.
En Janvier 2013, j’ai été contacté par des étudiants de l’Ecole Polytechnique qui voulaient développer un système équivalent dans le cadre de leur projet de fin d’année.
Alors, pendant des heures j’ai signé devant leur caméra kinétique « bonjour », « au revoir », « mon nom est », « ça va »… afin que l’ordinateur enregistre toutes les variations de la LSF et reconnaisse à coup sur ces successions de signes pour les traduire vers l’écrit.

Heureusement pour nous, les interprètes humains, leur objectif n’est pas de créer un super interprète 3.0.
En effet tandis que je leur faisais part de mes reserves sur la fiabilité de ce mode de traduction, ces futurs ingénieurs m’ont expliqué que leur but était de générer un système de reconnaissance pour des conversations simples comme nous pouvons en avoir à un guichet de la SNCF, à la CAF, La Poste, la mairie…
Or avant qu’une machine soit capable de comprendre et de traduire les méandres et autres subtilités de l’administration française nous avons encore de beaux jours devant nous…

Une réflexion sur “Interprète F/LSF 3.0 sur Xbox 360

  1. Ping : Un gant n’est pas un interprète (et inversement) – des signes et des mots

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s