La reconnaissance gestuelle et vocale dans les salles de cinéma

Les techniques de reconnaissance des gestes et de la voix ont été testées dans des cinémas dès le début de la projection numérique avec de bons résultats : même si les animations n’étaient pas très élaborées, les spectateurs se mettaient sans peine à bouger ou à crier pour interagir avec les images du grand écran. Les solutions ont beaucoup progressé depuis. Où en est-on ? Réponses du fondateur de Skemmi, une start-up belge qui vient d’animer l’avant première de « Vaiana », le dernier Disney, au Kinepolis de Lomme.*
SkemmiShake.jpg

 

Une détection plus fine des mouvements et des voix

Deux salles du Kinepolis se sont affrontées, dimanche 27 novembre avant la projection de « Vaiana », dans une course de pirogues sur grand écran, conçue à partir d’images du film. Chaque équipe devait pagayer, sans rame mais aussi fort que possible, pour faire gagner son bateau.

Est-ce vraiment motivant de ramer dans le vide au milieu de deux cents autres personnes ? Lionel Lawson, le fondateur de Skemmi qui a conçu cette animation pour Disney et Kinepolis, admet que ce genre d’expérience interactive a longtemps laissé les gens sceptiques : « Beaucoup se demandaient si ce qu’ils faisaient avait vraiment un impact sur ce qui se passait sur l’écran. Aujourd’hui, nous pouvons prouver à chaque spectateur que sa contribution individuelle a une vraie incidence sur l’action collective. C’est d’ailleurs ce que nous faisons au début de chaque animation pour motiver encore plus le public ».

« Utiliser une télécommande ou un smartphone pour interagir avec les images reste la meilleure solution quand il faut mesurer précisément l’impact des interactions des participants (compter les points que chacun obtient individuellement à un quizz, par exemple). Mais la comparaison s’arrête là : une expérience d’interaction gestuelle ou sonore ne produit pas du tout les mêmes effets qu’une séance interactive basée sur un smartphone ».

 

Technologie et psychologie

Ce que propose Skemmi est une des nombreuses applications de ce qu’on appelle la réalité augmentée, c’est-à-dire l’interaction du réel avec des éléments virtuels. Concevoir une séquence interactive comme celle qui a été proposée pour « Vaiana » mobilise une quinzaine de disciplines différentes, aussi diverses que la captation en 3D, le traitement du signal et la psychologie.

Cette dernière tient une place clé : Lionel Lawson explique que lorsque les interactions passent par des mouvements ou par la voix, le public participe plus volontiers et les spectateurs ont réellement le sentiment de faire corps dans l’action. Les études montrent, en outre, qu’ils sont plus attentifs et mémorisent beaucoup mieux les messages que l’animation cherche éventuellement à faire passer. « Nous concevons nos animations en fonction de l’impact psychologique que nos clients veulent produire, qu’il s’agisse d’une action de sensibilisation à un problème de société, d’un jeu, d’un quizz ou d’une publicité ».

La technologie tient, bien sûr, aussi une place très importante : deux caméras très sophistiquées filment les spectateurs dans la salle. Leurs mouvements ou les intonations de leurs voix sont ensuite interprétés par les logiciels de Skemmi.

C’est là qu’il faut relever l’un des principaux défis : « Une fois captés, les mouvements de chaque spectateur doivent être analysés et transmis aux images virtuelles en moins de 200 millisecondes. Au-delà, le public n’a pas l’impression d’interagir en temps réel » (une image, montrant en plan large ce qui se passe dans la salle, est incrustée dans l’image virtuelle projetée sur le grand écran pour que le public ait encore plus clairement conscience de l’impact de ses interactions).

À cette contrainte de délai, s’ajoute un autre défi de taille : chaque spectateur reproduit à sa manière les gestes qu’on lui demande d’accomplir (idem pour les intonations de voix). L’interprétation des mouvements doit donc être assez large, tout en restant aussi juste que possible. « Les recherches accomplies ces dix dernières années nous ont permis de faire beaucoup de progrès dans ces différents domaines ».

 

Cinémas

Le savoir-faire de Skemmi lui ouvre théoriquement de vastes débouchés : la domotique notamment (ouvrir une porte en faisant un mouvement particulier plutôt qu’en utilisant une clé) ou l’univers encore plus large des interactions hommes-machines dans la vie professionnelle (quand les deux mains ne suffisent pas – un problème auquel sont notamment confrontés les chirurgiens qui doivent compulser des fichiers de radiographies, tout en opérant – recourir à l’interaction vocale peut être très précieux).

Lionel Lawson a choisi de se focaliser sur les interactions de groupes, dont les cinémas sont un lieu de représentation privilégié. Skemmi conçoit des opérations à vocation promotionnelle (Seat lui a, par exemple, commandé une course de voitures par équipes) ou des actions de sensibilisation. La start-up a ainsi réalisé pour Sibelga (l’EDF-GDF de la région de Bruxelles) un jeu sur grand écran destiné à rendre le personnel de maintenance de l’entreprise plus vigilant en matière de sécurité : réunis dans un cinéma, les employés devaient guider un technicien virtuel par gestes sur un chantier, afin de le tenir éloigné des zones dangereuses.

Skemmi conçoit des animations sur mesure, comme celle qui a été réalisée pour « Vaiana », mais peut aussi réutiliser des schémas d’interactions déjà exploités pour d’autres opérations (les quizz, par exemple), ce qui réduit le coût des prestations.

Quelle place les technologies de reconnaissance gestuelle et vocale tiendront-elles à l’avenir dans les cinémas ? Une chose est sûre, le potentiel est là.

 

* Article paru pour la première fois dans Sonovision #6, p.46. Abonnez-vous à Sonovision pour accéder à nos articles dans leur totalité dès la sortie du magazine.