De acordo com uma resolução da Assembleia Geral das Nações Unidas, o Dia Mundial da Estatística (WSD) celebra-se de cinco em cinco anos, no dia 20 de Outubro. O objectivo desta celebração é o de relembrar ao mundo inteiro que a Estatística faz parte da vida de todos nós, nações e indivíduos, e que devemos estar atentos aos resultados que ela nos oferece, pois são esses resultados que muitas vezes orientam ou determinam o andamento de muitas das nossas actividades e, certamente, da nossa vida em sociedade. Neste dia e por todo o lado, em organizações nacionais e internacionais ligadas à Estatística, em universidades e outras instituições, realizam-se conferências, palestras, exposições e outras manifestações com vista a realçar a importância da Estatística e enaltecer o empenho de todos aqueles que trabalham na produção de boa informação estatística. Foi assim nos dois primeiros eventos, em 2010 e 2015, e, certamente, vai ser assim neste dia 20 de Outubro de 2020.

A pedido da Sociedade Portuguesa de Estatística, uma associação essencial no panorama estatístico nacional, cuja missão consiste em promover, cultivar e desenvolver, em Portugal, o estudo da estatística e suas aplicações, foi-me sugerido escrever um pequeno texto, para uma audiência alargada, adequado à efeméride e ao tema deste Dia Mundial da Estatística 2020 (conectando o mundo com dados em que podemos confiar). A preocupação óbvia são os dados e a confiança dos dados, questão que se repete no título do tema do Dia Mundial da Estatística 2015 (melhores dados, melhores vidas), e que se vislumbra também em “Serviço Profissionalismo Integridade (das Estatísticas Oficiais)”, que foi tema do 1º Dia Mundial da Estatística em 2010.

Vale a pena começar por referir, que dados não são apenas uma lista de números, são, sim, o resultado de medições feitas em objectos, indivíduos ou fenómenos que nos interessa observar ou submeter a alguma experimentação. E não devemos confundir dados com os símbolos ou formas vulgarmente usadas para os representar. Quando afirmamos que duas mulheres ganharam o prémio Nobel da Química em 2020, estamos em presença de um dado que é representado pelo número 2. Um dado precisa de um contexto para existir e é caracterizado por carregar informação que pode ser posteriormente usada para compreender melhor a entidade ou fenómeno que é objecto de estudo. O número 2, só por si, tomado isoladamente, não transporta qualquer informação, não é um dado, é apenas um símbolo matemático. Este conceito de dado é de sempre, mas há aspectos relativos a dados que vão mudando à medida que novos problemas, novos tipos de dados e novos métodos de produção vão surgindo. Para além das formas mais tradicionais de representação de dados (números, palavras, gráficos e figuras), hoje contamos ainda com fotografias, textos, vídeos, áudios e outras formas que a evolução da tecnologia nos vai oferecendo, a par de uma produção de dados em quantidade nunca vista. Das lamentações do passado no que respeita à reduzida dimensão dos conjuntos de dados e, portanto, à pouca informação que proporcionam, passámos a preocupações derivadas de conjuntos caracterizados pelo seu grande volume e ubiquidade. E, como mais não significa necessariamente melhor, muitos dos problemas do passado continuam a subsistir no presente, em particular, a questão da má qualidade dos dados.

A má qualidade dos dados surge muitas vezes por razões de ordem técnica e acidental, sobretudo na fase inicial de recolha, preparação e organização para subsequente análise. Felizmente, uma boa parte dos erros surgidos nesta fase podem ser minimizados com procedimentos de limpeza e análise preliminar. Muito mais grave, são os dados deliberadamente forjados ou manipulados com vista a atingir objectivos de interesse dos seus autores. Situações fraudulentas aparecem em todas as áreas e a lista que se refere à investigação científica é impressionante. Um notável caso de dados suspeitos de falsificação envolve o famoso cientista Gregor Mendel, considerado o pai da genética moderna, que publicou, em 1866, um artigo de conteúdo inovador em que estabelece os princípios fundamentais da genética. Porém, 70 anos depois, em 1936, Ronald Fisher, considerado o fundador da estatística moderna, publicou um artigo onde afirma que “os dados da maior parte, senão de todas as experiências (descritas por Mendel), foram falsificados de modo a estarem mais de acordo com as expectativas de Mendel”. A reacção a esta grave acusação originou uma longa e polémica discussão à volta do que ficou conhecido como o paradoxo Mendeliano. Uma descrição detalhada desta história pode ler-se no artigo (em inglês) publicado em 2010 na revista Statistical Science, onde os autores, A. Pires e J. Branco, convictos da improvável desonestidade de Mendel, também apresentam um modelo que pode levar ao encerramento de tão notável controvérsia.

Outra situação em que os dados podem ser manipulados, essencialmente para servir interesses políticos, acontece com a utilização das estatísticas oficiais. Este é um caso em que os maus dados têm efeitos verdadeiramente perversos para populações inteiras de países que não respeitam os princípios fundamentais das estatísticas oficiais, onde se incluem transparência, imparcialidade e ética. As Nações Unidas dão grande prioridade à denúncia e combate a estes desvios, que levam ao retardar dos planos de desenvolvimento sustentável e ao fim da louvável ideia de igualdade de oportunidades para que ninguém fique para trás. Um exemplo flagrante da viciação das estatísticas oficiais é o que se passou na Argentina, no período de 2007 a 2015, que viu o seu sistema de estatística adulterado, produzindo estatísticas que, escondendo a realidade do país, trouxeram tempos difíceis e injustos para a população. No final daquele período, o sistema nacional de estatística da Argentina tinha perdido a sua credibilidade, não só internamente, como externamente. O sistema foi, entretanto, reformado e reabilitado (INDEC) e neste dia especial para a Estatística organiza um programa sobre o tema do WSD, do seu próprio podcast, recentemente inaugurado.

Dados pouco fiáveis estão na génese de estatísticas erróneas, que, por sua vez, levam a decisões erradas sobre a economia, a saúde, a justiça e todos os outros sectores de actividade e da vida em sociedade. Por isso é com agrado que recebemos o tema escolhido para o WSD, pois é com dados em que nós confiamos, que podemos, de maneira segura, ligar os países do mundo. Outra causa que pode conduzir a resultados estatísticos falsos é a utilização de métodos estatísticos inadequados para analisar os dados, quer eles sejam fiáveis ou não. Na situação actual, em que o volume de dados produzidos é enorme e omnipresente, não se estranha que os métodos estatísticos tradicionais, concebidos para conjuntos de dados de pequena ou moderada dimensão, não tenham o sucesso que se tem constatado quando aplicados ao tipo de dados para os quais foram desenvolvidos. Os estatísticos têm consciência dessas dificuldades, mas a sua reacção, no sentido de as resolver, parece estar a ser lenta. Porém, o passado diz-nos que sempre que a natureza dos dados mudou, a Estatística foi capaz de se adaptar às novas exigências criadas. E agora, nestes tempos de mudança, espera-se que o motor que fez desenvolver a Estatística ao longo dos tempos continue a trabalhar, como sempre fez no passado. Na verdade, os métodos estatísticos e os princípios da estatística são como munições impregnadas de futuro, que alimentam uma poderosa arma que é a Estatística. Venha o que vier, é só carregar e apertar o gatilho.

E se dúvidas restassem quanto à importância dos dados, bastaria parar e ouvir o que se fala, o que se diz e o que se escreve diária e insistentemente, em todos os meios de comunicação social e, desde o início de 2020, sobre a pandemia Covid-19 que se abateu sobre todos. Muita dessa informação inclui a palavra dados (os dados são essenciais, os dados são insuficientes, os dados são deficientes, os dados foram corrigidos e vários outros predicados). E dos dados que geralmente aparecem destacados (número de infectados confirmados, de óbitos, recuperados, activos e de testes efectuados), espera-se poder obter informação que permita atingir vários objectivos, como: compreender o andamento da pandemia e antecipar os próximos passos, tomar medidas de saúde pública com vista a reduzir o risco de transmissão individual e de propagação descontrolada e, em última instância, investigar a maneira de actuar do vírus SARS-CoV-2. Os dados são avidamente procurados nos vários repositórios oficiais, não só por cientistas que deles precisam para as suas investigações, como também por curiosos que acompanham o desenrolar da pandemia. Mas será que vão encontrar a informação que desejam?

Duas situações emergem: i) em geral não há a garantia dos dados serem fiáveis; e ii) a presença de portadores assintomáticos é uma complicação acrescida.

A falta de fiabilidade dos dados é compreensível se considerarmos o panorama da recolha dos dados, do número considerável de técnicos intervenientes no processo, do processo de registo, da rapidez que a sua divulgação exige, da sua comunicação ao centro de recolha e até da definição de algumas variáveis, como é o caso da definição de morte associada à Covid-19. O facto de um teste aplicado a uma determinada pessoa resultar positivo, não chega para concluir que a Covid-19 foi a causa da sua morte. Tudo isto se agrava, quando pensamos como pensa a OMS, que requer os dados de todos os países para decidir, de forma global, sobre as suas recomendações e políticas de saúde. O problema da falta de fiabilidade é um verdadeiro incómodo para aqueles cujo trabalho depende dos dados. O professor John P.A. Ioannidis da Universidade de Stanford, e uma autoridade nestas matérias, refere-se ao assunto de forma preocupante no artigo “Um fiasco em curso? À medida que a pandemia de coronavírus se instala, estamos tomando decisões sem dados confiáveis” (em inglês).

Por sua vez, a presença de assintomáticos é altamente perturbadora, uma vez que o SARS-CoV-2 se serve secretamente dos assintomáticos para infectar os vizinhos mais próximos e garantir, assim, a continuidade da sua circulação. Porque é que existem, qual é o seu papel e qual a sua prevalência no grupo dos infectados são questões que se levantam e que ainda não estão respondidas. Na verdade, do que precisamos é de dados em que podemos confiar para prosseguir na luta que nos leve até ao conhecimento da verdadeira natureza do vírus e à vacina segura por que todos anseiam.