O exército dos dados na batalha de todos nós

Previsão, proteção e contenção. Três casos de uso, que, em momentos diferentes do ciclo da pandemia e sustentando-se nas suas fontes, poderão ser determinantes na ajuda aos governos:

No dia 6 de Março de 2020 a minha família esteve comigo em Madrid a assistir à cerimónia da minha graduação depois de um mestrado na área de Data Science. No meio dos habituais festejos e comemorações do final de um ano, que teve tanto de difícil como de prometedor, surgiu a pergunta fatal: mas afinal o que é isso? Que ciência é essa que parece vir transformar o mundo que conhecemos? Para que serve? Finalmente alguém teve coragem de perguntar!

Para todos vós, estudantes, colegas, professores, que eu sei que sabem a resposta, passem ao artigo à frente. Este artigo é escrito com espírito de pedagogo e dirigido a todos aqueles que não sabem ou acham que sabem, mas querem perceber melhor… É uma tentativa, a minha primeira, de explicar o que fiz durante um ano e como pode isso ser utilizado para benefício da nossa sociedade.

Drew Conway, um cientista de dados americano, começou por definir esta ciência como uma mistura de “habilidades de hackear informação, conhecimento específico no domínio e skills de matemática e estatística”. Numa versão posterior e realisticamente mais clara, David Lazer, professor de ciências política e de computação nos EUA, defende uma definição que mistura “métodos quantitativos, ciência de computadores e ciências sociais”. Admito que, mesmo depois de um ano a estudar esta temática, a tarefa de explicitação desta amálgama de conceitos não se assume fácil. Simplificando, data science é um processo que utiliza dados qualitativos e quantitativos para resolver problemas humanos através de técnicas consubstanciadas em conhecimentos de matemática e estatística.

Há cerca de um ano, numa conferência com algumas das empresas mais valiosas do mundo, Satya Nadella, o atual CEO da Microsoft, disse: “O ativo mais importante que toda a gente possui nesta sala é data”. A Microsoft era, por essa altura, a empresa mais valiosa do mundo, cotada em aproximadamente 905 biliões de dólares. UAU! Mas será esta uma ciência exclusivamente ao dispor dos balanços das empresas? Fará sentido olhar para os algoritmos apenas como estratégias ocultas de manipulação de clientes? Ou será possível, por outro lado, uma visão mais integrada das potencialidades desta nova realidade? Junte-se a mim na análise que aí vem!

A 31 de Dezembro de 2019, a Comissão Municipal de Saúde de Wuhan, na China, reporta 27 casos de uma pneumonia de causa desconhecida. Na última semana de Março, existem já perto de 350.000 casos mundialmente reportados, com uma taxa de mortalidade de aproximadamente 4.4%. O que se passou entre 31 de dezembro de 2019 e 26 de Março de 2020?

Comecemos por analisar a população da cidade X, onde vivem 17 pessoas, representadas por bolas brancas:

População cidade X no dia N

Passado um dia, foram encontradas as primeiras pessoas infetadas pelo vírus, representadas por bolas negras:

População cidade X no dia N+1

Destas três bolas, uma sentiu sintomas de gripe e ficou em casa, isolada. As outras duas, estando apenas cansadas e com pouca febre, andaram de metro, foram trabalhar e voltaram para casa. Uma delas, inclusivamente, decidiu ir às compras. No dia N+5, era este então o estado da população da cidade X:

População da cidade X no dia N+5

As duas bolas do meio que carregavam o vírus infetaram outras duas (com quem viviam) e uma delas infetou uma terceira com quem esteve na caixa do supermercado. Multiplique isto por infinitas bolas (pessoas) e adicione a esta cidade, representativa do nosso planeta, dimensões anteriormente não referidas: viagens internacionais (bolas brancas a entrar e a cruzarem-se com bolas pretas), bolas pretas a entrar em hospitais e a cruzarem-se com bolas brancas, bolas pretas em fábricas ou reuniões corporativas com inúmeras bolas brancas à sua volta, etc. Aquilo que acabo de representar é um processo de criação (in)finita de data points.

Desde logo, olhando para a última figura, podemos medir a distância média entre as bolas de diferentes cores, analisar a movimentação das bolas dentro e fora da cidade ou estimar o tempo de conversão de uma bola branca em preta e novamente em branca.

A isto chama-se análises de rede, uma das áreas dentro de data science, que nos poderá trazer muito valor na resolução da atual pandemia. Individualmente, cada pessoa é também descrita por variáveis: número de pessoas com quem vive, número de pessoas com quem trabalha, pontos entre os quais se deslocam, transportes que usam, morada de residência, histórico de doenças, entre outras. A utilização de técnicas avançadas de previsão (como machine learning), utilizando estes dados individuais, poderá, no limite, permitir determinar a probabilidade de contágio de cada pessoa, ajudando as unidades de saúde a conter a disseminação do vírus.

Destaco então três casos de uso, que, em momentos diferentes do ciclo da pandemia e sustentando-se nas suas fontes, poderão ser determinantes na ajuda aos governos:

  1. Previsão — A informação do número de infetados no país de origem, o número de testes disponíveis, dados da população e índices de mobilidade permitirão prever, com elevada eficácia, o número de pessoas a ser infetadas. Tal viabiliza automaticamente uma gestão eficiente da logística de saúde, estimando necessidades de camas, ventiladores, máscaras, entre outros.
  2. Proteção — A recolha de indicadores das pessoas infetadas no país de origem da pandemia possibilitará a criação de perfis de saúde de uma população, resultando em clusters de indivíduos com características intrínsecas que os coloca numa escala de risco normalizada, obrigando a uma maior responsabilização do cidadão na exposição às várias ameaças, poupando esforços de comunicação aos aos governos locais.
  3. Contenção — A informação do histórico de movimentos de pessoas infetadas através de geolocalização (como a China o fez) identificará claramente os canais de propagação do vírus, obrigando a um alerta imediato por parte das unidades responsáveis à população e, no limite, a medidas de coação contra comportamentos não cívicos.

Tudo isto é bonito e parece fácil. Não é. É, antes, extremamente difícil reconhecer que os desafios superam largamente as oportunidades no que ao tema diz respeito, principalmente por termos de responder com base num conjunto de pressupostos, nesta altura, utópicos. Entre os quais, destaco a necessidade de perfeita coordenação entre unidades de saúde, estado, cidadãos e outros agentes envolvidos; a disponibilidade em larga escala de recursos, infraestruturas e tecnologias de recolha e processamento de dados quase ao minuto e a imaculada cooperação internacional entre países e continentes. Saibamos capitalizar todos estes instrumentos e ganharemos esta batalha, numa guerra que se prevê longa!

Assine o ECO Premium

No momento em que a informação é mais importante do que nunca, apoie o jornalismo independente e rigoroso.

De que forma? Assine o ECO Premium e tenha acesso a notícias exclusivas, à opinião que conta, às reportagens e especiais que mostram o outro lado da história.

Esta assinatura é uma forma de apoiar o ECO e os seus jornalistas. A nossa contrapartida é o jornalismo independente, rigoroso e credível.

Comentários ({{ total }})

O exército dos dados na batalha de todos nós

Respostas a {{ screenParentAuthor }} ({{ totalReplies }})

{{ noCommentsLabel }}

Ainda ninguém comentou este artigo.

Promova a discussão dando a sua opinião