Em 1854, um surto de cólera assolou a cidade de Londres. John Snow, um dos pais da epidemiologia, teve um papel determinante na resposta ao surto. À data, a ciência dizia que a doença se transmitia pelos miasmas, os “maus ares”. Snow conseguiu atribuir corretamente a origem do surto à água bebida pelos habitantes de Londres, e fê-lo através do uso de uma técnica inovadora: o mapeamento dos casos da doença e a análise rigorosa dos fatores a que estavam expostos. Em 2020, não há grande razão para nos limitarmos a uma resposta reativa a uma pandemia, e a proatividade depende em grande medida de ser possível recolher e analisar os dados em saúde gerados pela COVID19 e pela nossa resposta a ela.

Por todo o mundo, são muitos os exemplos que o confirmam. A empresa canadiana BlueDot identificou o surto em Wuhan 9 dias antes de a Organização Mundial de Saúde lançar o alerta, graças a um sistema de machine learning que procura pistas em notícias, relatos de redes sociais, dados das autoridades de saúde, entre outros. A empresa coreana Seegene é uma das responsáveis pelo extraordinário sistema de testes na Coreia do Sul, aquele que mais testes tem efetuado em todo o mundo. A Seegene utilizou um supercomputador para acelerar o desenvolvimento dos testes para a COVID19, passando de um tempo normal de meses para um total de três semanas, e a matéria prima para o supercomputador foram os dados do genoma do vírus disponibilizados entretanto pelos chineses. Nos Estados Unidos, o alerta para a existência de transmissão comunitária ativa no estado de Washington foi dado no Twitter por Travis Bedford, um investigador que analisou o genoma das amostras de vírus disponibilizadas por todo o mundo. Registam-se casos de equipas de voluntários que conseguem mapear os surtos de forma notável e fazer previsões para a sua evolução.

Mas testar a maior parte dos casos suspeitos é um processo que parece estar apenas ao alcance de algumas sociedades, como é o caso da Coreia do Sul. Para apoiar uma deteção precoce da infeção na comunidade, são habitualmente usados sintomas que melhor a discriminem de outras condições que, ainda que semelhantes, sejam mais comuns e de menor risco, como a gripe ou uma simples constipação. Para isso serve também a investigação clínica, a análise da sintomatologia e fatores de risco que suportem evidência útil na triagem dos casos e no rastreio da doença. Aqui, a análise de todos os casos suspeitos de infeção (confirmados ou despistados) é de essencial importância para a correta aferição dos sintomas mais relevantes (e.g. para a COVID-19, a tosse, em particular sem expetoração, parece ser um sintoma mais prevalente do que a febre, enquanto a falta de ar generalizada, sendo menos comum, será potencialmente mais relevante para distinguir esta infeção de uma gripe).

Neste contexto, a análise criteriosa de dados secundários torna possível a obtenção de informação e conhecimento cruciais que de outro modo seria impraticável. De facto, os estudos em dados colhidos de forma rotineira na prática clínica diária ou em ambiente não-clínico poderão estar mais próximos da realidade do que os estudos primários laboratoriais. Em particular, em cenários de emergência como o que vivemos actualmente, precisamos de respostas imediatas que não se coadunam com atrasos na disponibilização de dados para a comunidade científica, tornando boa parte da resposta obsoleta. A evidência é necessária agora; os dados para a sustentar eram necessários ontem.

Ora, para poder usar as novas armas digitais, é essencial que os governos partilhem o maior conjunto possível de dados abertos com a comunidade, para que todos se dediquem a encontrar soluções. As estratégias de Open Data representam uma mais valia incomparável nos avanços da ciência aberta, rápida mas reprodutível, em particular na área da saúde. Claro que nem todos os dados podem ser partilhados abertamente, visto serem dados de saúde, mas também para esses há solução: recrutar o potencial existente nas universidades para tratar esses dados dentro do sistema, quebrando fronteiras artificiais entre profissionais de saúde “tradicionais” e novos profissionais de saúde, que manuseiam estas ferramentas inovadoras. Os dados devem ser utilizados com responsabilidade e devem ser mantidos em segurança, mas devem estar disponíveis para investigação.

Se é certo que há riscos na partilha de dados, podemos, no entanto, argumentar que há risco em não partilhá-los – conhecimento que não é gerado, tratamentos que não são descobertos, infeções que não são travadas, decisões erradas tomadas com base em informação mais incompleta. Se isto é válido em qualquer situação, é ainda mais válido durante uma pandemia causada por um agente infecioso que conhecemos mal. É urgente que Portugal tire proveito do potencial que está nas suas universidades e nas suas empresas e o ponha ao serviço da batalha contra o SARS-CoV2. Salvar mais vidas depende disso.