Agora que já passámos estas eleições e nos aproximamos das próximas, seria interessante pensarmos um pouco sobre as sondagens destinadas a “prever” resultados eleitorais, já que toda a gente as lê e toda a gente as contesta. Isto se os “resultados” não nos agradam, claro. Porque se agradam toca a divulgá-las, batendo recordes de partilhas por essas redes sociais fora.

A primeira abordagem possível é a comercial. Será que é mesmo importante avaliar do ponto de vista matemático o que está a ser feito, ou o que o pessoal gosta é mesmo da “festa”, do chamar vigaristas aos senhores das empresas de sondagens ou de mandar o email ao amigo a fazer pirraça como se fosse futebol? Vamos supor que a resposta é a primeira, que vale a pena olhar mais seriamente para a coisa e não a segunda, embora eu próprio não esteja certo disso. Por isso os parágrafos que se seguem enquadram-se numa segunda abordagem, a racional.

Nestas eleições que passaram dediquei-me um pouco mais a seguir as sondagens, como elas eram feitas, como são feitas as projeções e os resultados que produziam. Arrisquei eu mesmo, entre o grupo de amigos, a fazer as minhas projeções com base nas sondagens que as várias empresas publicavam e depositavam na CNE. Custou-me um almoço cujo preço se vai decidir nas presidenciais, mas aprendi bastante sobre a tarefa e quis partilhar convosco.

Vamos pensar um pouco sobre o problema e colocá-lo de forma percetível. Sabemos que num horizonte temporal fixo (umas semanas), uns quantos milhões de pessoas (7?, ninguém sabe) vão ser chamadas a escolher um partido. A escolha terá que ser feita entre um número finito de partidos e esse número não vai mudar nessas semanas que faltam para a escolha. Até agora, o problema parece bem colocado e não acho que vá haver discussão, certo?

Com o problema colocado, vamos recolher uma amostra de x pessoas e perguntar-lhes onde vão votar. Há uma percentagem relevante de pessoas que dizem onde vão votar, os decididos, e uma percentagem que diz que não sabe, os chamados indecisos. E isto também me parece razoavelmente inquestionável. A discussão vai começar agora.

Comecemos pelos indecisos. Vamos supor que as pessoas dizem que não sabem porque são embirrentas e todas já sabem exatamente onde vão votar, simplesmente não gostam de dizer. Por outras palavras, as eleições estão totalmente decididas tal qual estarão no dia das eleições, nós é que não sabemos. Então a solução é simples, porque o sistema está completamente em equilíbrio. Mesmo que haja alterações de opinião, estas vão anular-se umas às outras e o resultado já está feito na cabeça das pessoas. Por isso, o método de considerar todos como abstencionistas ou dividir os indecisos na mesma percentagem que os decididos(que vai dar ao mesmo) é perfeitamente justificável nesta situação.

Mas esse não é o nosso problema, pois não? O nosso problema é que existem pessoas que não sabem porque há um horizonte temporal para decidir. Na verdade, só precisam decidir no momento em que metem a cruz e não antes. Se as pessoas não mudassem de opinião entre eleições então não se faziam eleições. Esta indecisão faz parte da natureza do problema. Então como é que conseguimos refletir isso nos resultados previstos, atendendo que não conseguimos adivinhar a cabeça das pessoas? Porque é que o método de dividir os eleitores indecisos não bate certo?

Vamos pensar que dividimos os eleitores indecisos na mesma percentagem em que os decididos estão divididos. Mas não os vamos dividir ao mesmo tempo. Primeiro, vamos dividir uns, depois outros e por aí em diante à medida que o tempo se escoa. Parece uma pequena alteração, mas não é. Faz uma enorme diferença. Imaginemos que só tínhamos três partidos e todos com um voto. Metendo um novo eleitor, vai haver um partido com dois votos e dois com apenas um. Quando meter o próximo eleitor, ele tem duas vezes mais possibilidades de ir parar ao partido com dois votos que a um dos que só tem um voto. E assim sucessivamente. O algoritmo, sendo de uma simplicidade surpreendente, projeta os resultados de forma substancialmente diferente. As diferenças são muito ampliadas face àquilo que seria de esperar se o sistema estivesse em equilíbrio, porque é um sistema que está sempre a crescer. As projeções assumindo que os eleitores indecisos são abstencionistas só poderiam acertar no primeiro caso que referi, o de todos estarem decididos. Mas nesse caso, as eleições já estariam decididas, certo?

Portanto, neste aspeto, não podemos andar a chamar vigaristas às empresas de sondagens por a projeção que fazem ser baseada em assumir que os indecisos são abstencionistas. Simplesmente adotaram um método que pode estar menos correto de projetar os resultados.

Outra crítica que é feita é dizer que a amostra é muito pequena. Mas isso não faz sentido. Se o sistema estivesse em equilíbrio, uma amostra de 1500 pessoas como aquela que era feita nestas eleições, servia perfeitamente em primeira aproximação. Não estando em equilíbrio, os 25% de indecisos que existem em 1500 são, em primeira aproximação, 25% de indecisos em 7 milhões de eleitores. Por isso, não é por aí que os resultados serão substancialmente diferentes.

Dizem que as amostras são desviadas, isto é, que as empresas de sondagens escolhem a quem perguntar ou que são feitas por telefone fixo para atacar a audiência das “Tardes da Júlia”. Mas isso é negado pelos dados demográficos porque os perfis das amostras – sexo, idade, local, etc.. – batem com aquilo que é a distribuição nacional. Escolher uma amostra, dar exatamente o perfil demográfico da população portuguesa e, com esta, tirar o resultado que queremos, daria tanto trabalho que mais valia comprar os votos.

A minha principal aprendizagem neste processo eleitoral que passou foi que as empresas de sondagens fazem um trabalho geralmente sério, embora ninguém possa garantir que ninguém muda os números finais “à má fila”. As incorreções que possam ter nas projeções não são, de forma alguma, um sinal de má-fé como inúmeras pessoas, normalmente desfavorecidas pela vontade do eleitor, querem transmitir. Aliás, o eleitor deve fazer um imediato julgamento de carácter de quem põe em causa a dignidade profissional de alguém, só porque aquilo que o profissional diz não o favorece.

E as minhas projeções bateram certo? Umas sim, outras não. Sem referir nomes das empresas, uma delas fazia uma segunda pergunta aos entrevistados para despistar os indecisos e outra fazia a entrevista telefónica tradicional. Perante a aposta com os meus amigos, decidi escolher os dados da primeira empresa porque a percentagem de indecisos era fundamental no meu método. Falhei redondamente. Com a segunda acertei todos os resultados com uma diferença inferior a 1% em cada partido a duas semanas das eleições. A segunda pergunta, de acordo com os meus métodos, não ajudou em nada, prejudicou. O que parece ir de encontro a uma velha regra de quem, como eu, anda na inteligência artificial há anos devia saber, mas que toda a gente viola: “Não se mexe nos dados só porque nos parece melhor mexer”.

Vamos ver agora com as presidenciais se consegui aprender alguma coisa, tirando o fundamental: parem de chamar vigaristas às pessoas só porque aquilo que elas fazem não dá o resultado que mais vos agrada. Isso diz muito mais de vocês que delas. Pode ser que o almoço que vou pagar me saia mais barato.

PhD em Física, Co-Fundador e Partner da Closer