O Consórcio Internacional de Jornalistas de Investigação (ICIJ) utilizou um estúdio de inteligência artificial da Quartz para explorar os 715 mil documentos que estão na base do caso Luanda Leaks, que denuncia os esquemas de corrupção que Isabel dos Santos alegadamente terá usado para erguer um império multimilionário.

De acordo com a Quartz, o consórcio de jornalistas procurou o estúdio para criar um sistema capaz de vasculhar e ler os 356 gigabytes de informação por trás da investigação à filha de José Eduardo dos Santos, ex-presidente de Angola. Esse sistema deveria ser capaz de suportar documentos em qualquer formato, independentemente da língua, mesmo que tivessem erros de transcrição, gralhas ou erros gramaticais.

Para isso, o estúdio da Quartz inventou o Universal Sentence Encoder, um software que imita a capacidade de interpretação humana a um nível que as máquinas ainda não alcançaram. Com esse programa, cada frase é transformada numa lista de 512 números chamada “vetor”. Se duas frases forem semelhantes em significado, então os “vetores” delas também será semelhante.

Como são compostos por números, os “vetores” não conhecem língua. Isto é, mesmo que haja uma frase em português e outra em inglês, desde que o significado delas sejam semelhante, então as listas de números associadas a cada uma delas também o serão. Por exemplo, o software conseguiu juntar uma frase em português, “uma nova entidade para a sociedade”, com outra em inglês, “a new entity for the company”. Depois, conseguiu associar essas duas frases com uma que, não sendo exatamente igual em estrutura, era igual em significado: “of the firm as newly constituted”.

Todas as frases de todos os documentos na posse do ICIJ foram transformados em “vetores”, que depois eram armazenados numa base de dados, a Annoy. Essa base de dados organizava os vetores por semelhança. Isto é, se alguém procurasse o “vetor” número 5, saberia à partida que os “vetores” número 4 e número 6 seriam os mais semelhantes àquele; e que quanto mais distantes estivessem dois “vetores”, mais diferentes seriam — logo, os significados das frases associadas a eles também seriam mais distantes.

A vantagem deste sistema é que permitiu aos jornalistas envolvidos na investigação uma análise muito mais rápida às centenas de milhares de documentos do Luanda Leaks. Este sistema esteve à disposição dos quase 250 repórteres de 90 nacionalidades do ICIJ, que graças à inteligência artificial puderam procurar por informações em poucos minutos mesmo que não estivessem familiarizados com as duas línguas mais usados nesse material — o inglês e o português.