L’interaction homme-machine a progressé à pas de géant depuis l’invention des cartes perforées, mais le chemin sera encore long avant que nous puissions interagir de façon naturelle avec l’ordinateur, c’est-à-dire au moyen de paroles, gestes et expressions faciales.
 
Dans le domaine de la parole, les techniques de reconnaissance vocale ont suffisamment progressé pour permettre à des applications comme Siri (Apple) et Now (Google) de voir le jour, et les programmes de conversion texte-parole fonctionnent eux aussi en temps réel. Dans le domaine des expressions faciales par contre, les systèmes de reconnaissance automatique de la parole s’appuyant sur le mouvement des lèvres d’un locuteur se montrent moins performants. Une nouvelle méthode de lecture labiale laisse toutefois espérer des progrès.
 
Une nouvelle méthode de lecture labiale
Helen Bear et Richard Harvey, deux chercheurs de l’université anglaise d’East Anglia, ont décrit leur méthode de « décodage des visèmes » dans les comptes-rendus de la conférence ICASSP 2016 (International Conference on Acoustics, Speech, and Signal Processing).
 
En dehors des améliorations que cette méthode pourrait apporter aux systèmes de reconnaissance automatique de la parole, Helen Bear, qui étudie les mécanismes de reconnaissance audio-visuelle de la parole depuis des années, cite d’autres applications possibles : systèmes destinés aux personnes atteintes de troubles de l’audition,  programmes d’aide aux communications en milieu bruyant, ou encore détermination des paroles d’un locuteur d’après des images uniquement vidéo, par exemple celles d’une télévision en circuit fermé. [HM]

 
La suite de cet article est en anglais.