Ler nos lábios sempre foi uma técnica utilizada para auxiliar pessoas com dificuldades auditivas. Mas também pode ser uma maneira discreta de alguém tentar “ouvir” uma conversa alheia. Qualquer uma destas situações pressupõe a presença da pessoa que fala e da pessoa que tenta entender o que está a ser dito. Mas e se o processo puder ser automatizado e realizado por um computador? E, caso seja possível, quais são as implicações deste processo a nível da privacidade?

As respostas a estas questões foram dadas por Ahmad Hassanat, um investigador da Universidade de Maw’tah, na Jordânia. Mas calma: Hassanat considera que ainda há diversos obstáculos a serem ultrapassados, como a correta associação entre a forma dos lábios e o som a que essa forma corresponde.

Por outras palavras: enquanto falamos, os nossos lábios podem adquirir entre 10 a 14 posições diferentes. A cada um desses formatos podem estar associados diversos sons, fonemas. E é aqui que reside o problema: como saber qual o fonema correto a associar a uma determinada posição labial? Não se pode associar uma posição labial a uma única palavra ou sequência de palavras, explica a Technology Review.

Dito desta forma, parece que não será fácil a automatização deste processo. Mas Hassanat considera o contrário. De acordo com o investigador, a rápida evolução da tecnologia tem permitido um aperfeiçoamento da técnica durante os últimos anos, o que faz com que, agora, o verdadeiro desafio seja o reconhecimento e categorização das diversas posições que os lábios adquirem durante uma conversa.

E como é que isto pode ser feito? Através do registo da altura, largura e forma dos lábios, bem como do número de dentes que ficam à vista. Uma tarefa muitas vezes dificultada pela presença de barba e bigode, que podem induzir em erro os sistemas de reconhecimento visuais.

Há outro problema, que vem da expressividade durante o discurso. Há pessoas que abrem e mexem muito mais os lábios do que outras, o que pode facilitar ou dificultar a tarefa dos sistemas de reconhecimento. Mas o sistema desenvolvido por Hassanat mostra uma taxa de sucesso de 76%, ainda que as experiências tenham sido conduzidas em laboratório.

Apesar do sucesso, Hassanat considera que só quem tiver acesso a informações complementares sobre a pessoa que está a falar tem uma maior hipótese de conseguir perceber o que está a dizer. Saber o contexto da conversa e interpretar a linguagem corporal do emissor é fundamental e são aspetos que ainda não podem ser percecionados por um computador.

Mas, quando forem, haverá novos desafios a superar, particularmente relacionados com a privacidade. Se existir uma câmara de vigilância no local onde se encontra, a sua conversa pode ser gravada e descodificada através de um sistema de reconhecimento. O que significa que, de privada, a sua conversa terá muito pouco.