Tem acesso livre a todos os artigos do Observador por ser nosso assinante.

De acordo com uma resolução da Assembleia Geral das Nações Unidas, o Dia Mundial da Estatística (WSD) celebra-se de cinco em cinco anos, no dia 20 de Outubro. O objectivo desta celebração é o de relembrar ao mundo inteiro que a Estatística faz parte da vida de todos nós, nações e indivíduos, e que devemos estar atentos aos resultados que ela nos oferece, pois são esses resultados que muitas vezes orientam ou determinam o andamento de muitas das nossas actividades e, certamente, da nossa vida em sociedade. Neste dia e por todo o lado, em organizações nacionais e internacionais ligadas à Estatística, em universidades e outras instituições, realizam-se conferências, palestras, exposições e outras manifestações com vista a realçar a importância da Estatística e enaltecer o empenho de todos aqueles que trabalham na produção de boa informação estatística. Foi assim nos dois primeiros eventos, em 2010 e 2015, e, certamente, vai ser assim neste dia 20 de Outubro de 2020.

A pedido da Sociedade Portuguesa de Estatística, uma associação essencial no panorama estatístico nacional, cuja missão consiste em promover, cultivar e desenvolver, em Portugal, o estudo da estatística e suas aplicações, foi-me sugerido escrever um pequeno texto, para uma audiência alargada, adequado à efeméride e ao tema deste Dia Mundial da Estatística 2020 (conectando o mundo com dados em que podemos confiar). A preocupação óbvia são os dados e a confiança dos dados, questão que se repete no título do tema do Dia Mundial da Estatística 2015 (melhores dados, melhores vidas), e que se vislumbra também em “Serviço Profissionalismo Integridade (das Estatísticas Oficiais)”, que foi tema do 1º Dia Mundial da Estatística em 2010.

Vale a pena começar por referir, que dados não são apenas uma lista de números, são, sim, o resultado de medições feitas em objectos, indivíduos ou fenómenos que nos interessa observar ou submeter a alguma experimentação. E não devemos confundir dados com os símbolos ou formas vulgarmente usadas para os representar. Quando afirmamos que duas mulheres ganharam o prémio Nobel da Química em 2020, estamos em presença de um dado que é representado pelo número 2. Um dado precisa de um contexto para existir e é caracterizado por carregar informação que pode ser posteriormente usada para compreender melhor a entidade ou fenómeno que é objecto de estudo. O número 2, só por si, tomado isoladamente, não transporta qualquer informação, não é um dado, é apenas um símbolo matemático. Este conceito de dado é de sempre, mas há aspectos relativos a dados que vão mudando à medida que novos problemas, novos tipos de dados e novos métodos de produção vão surgindo. Para além das formas mais tradicionais de representação de dados (números, palavras, gráficos e figuras), hoje contamos ainda com fotografias, textos, vídeos, áudios e outras formas que a evolução da tecnologia nos vai oferecendo, a par de uma produção de dados em quantidade nunca vista. Das lamentações do passado no que respeita à reduzida dimensão dos conjuntos de dados e, portanto, à pouca informação que proporcionam, passámos a preocupações derivadas de conjuntos caracterizados pelo seu grande volume e ubiquidade. E, como mais não significa necessariamente melhor, muitos dos problemas do passado continuam a subsistir no presente, em particular, a questão da má qualidade dos dados.

A má qualidade dos dados surge muitas vezes por razões de ordem técnica e acidental, sobretudo na fase inicial de recolha, preparação e organização para subsequente análise. Felizmente, uma boa parte dos erros surgidos nesta fase podem ser minimizados com procedimentos de limpeza e análise preliminar. Muito mais grave, são os dados deliberadamente forjados ou manipulados com vista a atingir objectivos de interesse dos seus autores. Situações fraudulentas aparecem em todas as áreas e a lista que se refere à investigação científica é impressionante. Um notável caso de dados suspeitos de falsificação envolve o famoso cientista Gregor Mendel, considerado o pai da genética moderna, que publicou, em 1866, um artigo de conteúdo inovador em que estabelece os princípios fundamentais da genética. Porém, 70 anos depois, em 1936, Ronald Fisher, considerado o fundador da estatística moderna, publicou um artigo onde afirma que “os dados da maior parte, senão de todas as experiências (descritas por Mendel), foram falsificados de modo a estarem mais de acordo com as expectativas de Mendel”. A reacção a esta grave acusação originou uma longa e polémica discussão à volta do que ficou conhecido como o paradoxo Mendeliano. Uma descrição detalhada desta história pode ler-se no artigo (em inglês) publicado em 2010 na revista Statistical Science, onde os autores, A. Pires e J. Branco, convictos da improvável desonestidade de Mendel, também apresentam um modelo que pode levar ao encerramento de tão notável controvérsia.

PUB • CONTINUE A LER A SEGUIR

Outra situação em que os dados podem ser manipulados, essencialmente para servir interesses políticos, acontece com a utilização das estatísticas oficiais. Este é um caso em que os maus dados têm efeitos verdadeiramente perversos para populações inteiras de países que não respeitam os princípios fundamentais das estatísticas oficiais, onde se incluem transparência, imparcialidade e ética. As Nações Unidas dão grande prioridade à denúncia e combate a estes desvios, que levam ao retardar dos planos de desenvolvimento sustentável e ao fim da louvável ideia de igualdade de oportunidades para que ninguém fique para trás. Um exemplo flagrante da viciação das estatísticas oficiais é o que se passou na Argentina, no período de 2007 a 2015, que viu o seu sistema de estatística adulterado, produzindo estatísticas que, escondendo a realidade do país, trouxeram tempos difíceis e injustos para a população. No final daquele período, o sistema nacional de estatística da Argentina tinha perdido a sua credibilidade, não só internamente, como externamente. O sistema foi, entretanto, reformado e reabilitado (INDEC) e neste dia especial para a Estatística organiza um programa sobre o tema do WSD, do seu próprio podcast, recentemente inaugurado.

Dados pouco fiáveis estão na génese de estatísticas erróneas, que, por sua vez, levam a decisões erradas sobre a economia, a saúde, a justiça e todos os outros sectores de actividade e da vida em sociedade. Por isso é com agrado que recebemos o tema escolhido para o WSD, pois é com dados em que nós confiamos, que podemos, de maneira segura, ligar os países do mundo. Outra causa que pode conduzir a resultados estatísticos falsos é a utilização de métodos estatísticos inadequados para analisar os dados, quer eles sejam fiáveis ou não. Na situação actual, em que o volume de dados produzidos é enorme e omnipresente, não se estranha que os métodos estatísticos tradicionais, concebidos para conjuntos de dados de pequena ou moderada dimensão, não tenham o sucesso que se tem constatado quando aplicados ao tipo de dados para os quais foram desenvolvidos. Os estatísticos têm consciência dessas dificuldades, mas a sua reacção, no sentido de as resolver, parece estar a ser lenta. Porém, o passado diz-nos que sempre que a natureza dos dados mudou, a Estatística foi capaz de se adaptar às novas exigências criadas. E agora, nestes tempos de mudança, espera-se que o motor que fez desenvolver a Estatística ao longo dos tempos continue a trabalhar, como sempre fez no passado. Na verdade, os métodos estatísticos e os princípios da estatística são como munições impregnadas de futuro, que alimentam uma poderosa arma que é a Estatística. Venha o que vier, é só carregar e apertar o gatilho.

E se dúvidas restassem quanto à importância dos dados, bastaria parar e ouvir o que se fala, o que se diz e o que se escreve diária e insistentemente, em todos os meios de comunicação social e, desde o início de 2020, sobre a pandemia Covid-19 que se abateu sobre todos. Muita dessa informação inclui a palavra dados (os dados são essenciais, os dados são insuficientes, os dados são deficientes, os dados foram corrigidos e vários outros predicados). E dos dados que geralmente aparecem destacados (número de infectados confirmados, de óbitos, recuperados, activos e de testes efectuados), espera-se poder obter informação que permita atingir vários objectivos, como: compreender o andamento da pandemia e antecipar os próximos passos, tomar medidas de saúde pública com vista a reduzir o risco de transmissão individual e de propagação descontrolada e, em última instância, investigar a maneira de actuar do vírus SARS-CoV-2. Os dados são avidamente procurados nos vários repositórios oficiais, não só por cientistas que deles precisam para as suas investigações, como também por curiosos que acompanham o desenrolar da pandemia. Mas será que vão encontrar a informação que desejam?

Duas situações emergem: i) em geral não há a garantia dos dados serem fiáveis; e ii) a presença de portadores assintomáticos é uma complicação acrescida.

A falta de fiabilidade dos dados é compreensível se considerarmos o panorama da recolha dos dados, do número considerável de técnicos intervenientes no processo, do processo de registo, da rapidez que a sua divulgação exige, da sua comunicação ao centro de recolha e até da definição de algumas variáveis, como é o caso da definição de morte associada à Covid-19. O facto de um teste aplicado a uma determinada pessoa resultar positivo, não chega para concluir que a Covid-19 foi a causa da sua morte. Tudo isto se agrava, quando pensamos como pensa a OMS, que requer os dados de todos os países para decidir, de forma global, sobre as suas recomendações e políticas de saúde. O problema da falta de fiabilidade é um verdadeiro incómodo para aqueles cujo trabalho depende dos dados. O professor John P.A. Ioannidis da Universidade de Stanford, e uma autoridade nestas matérias, refere-se ao assunto de forma preocupante no artigo “Um fiasco em curso? À medida que a pandemia de coronavírus se instala, estamos tomando decisões sem dados confiáveis” (em inglês).

Por sua vez, a presença de assintomáticos é altamente perturbadora, uma vez que o SARS-CoV-2 se serve secretamente dos assintomáticos para infectar os vizinhos mais próximos e garantir, assim, a continuidade da sua circulação. Porque é que existem, qual é o seu papel e qual a sua prevalência no grupo dos infectados são questões que se levantam e que ainda não estão respondidas. Na verdade, do que precisamos é de dados em que podemos confiar para prosseguir na luta que nos leve até ao conhecimento da verdadeira natureza do vírus e à vacina segura por que todos anseiam.