Os dados (não?) mentem

Ilustração: Julia Jabur
Ciência Fundamental

Por Edgard Pimentel

Correlações, causalidades e conclusões espúrias

*

Uma boa estratégia para obter informações sobre o mundo, e se preparar pra enfrentá-lo, é observar. Dar uma conferida no tempo e apanhar um guarda-chuva, olhar pros lados antes de atravessar a rua. Buscamos os dados, analisamos e tomamos decisões. O processo parece simples, mas às vezes é bem complicado. Os dados podem ser muitos, são passíveis de imprecisões, os métodos de análise nem sempre se revelam os mais adequados e, sobretudo, nossa pergunta pode estar errada. Afinal, contra dados, há argumento?

Tales de Mileto, reputado por inaugurar uma cosmologia independente dos mitos, é também referido como um ávido observador –segundo a lenda, ele chegou a cair num poço enquanto caminhava observando as estrelas. Mas, munido de dados, ele teria previsto um eclipse e determinado a data dos solstícios. E, segundo Aristóteles, ele teria prenunciado colheitas favoráveis e até concluído que a Terra era redonda.

Não estava sozinho, Tales. Hiparco, Eratóstenes e Ptolomeu são apenas alguns que reuniram observações e dados para responder a perguntas fundamentais sobre o mundo. A acurácia do modelo ptolomaico é impressionante, mesmo operando sob a hipótese do geocentrismo. A própria queda do paradigma geocêntrico e a revolução copernicana, ou as leis de Kepler, se beneficiaram dos dados obtidos pelo dinamarquês Tycho Brahe no complexo situado na ilha de Ven.

Nestes casos, um conjunto de observações levou a previsões. Mas não é clara a conexão entre os dados e os fenômenos previstos. Teria sido causalidade? Será que condições meteorológicas no inverno causariam boas colheitas nas estações seguintes? Ou apenas haveria uma forte correlação entre estes fatos?

Causalidade é sutil, e está ligada à ideia de implicação. Aparece quando um fato leva a outro: uma bola de bilhar se choca com outra e causa seu movimento; o vapor numa caldeira aciona um mecanismo. No universo dos dados a ideia é a mesma. Suponha que aumentos nos gastos do governo causem aumentos do nível de demanda agregada, e por consequência do emprego. Então, sempre que os dados indicarem que houve o primeiro, podemos esperar pelo segundo. Mais ainda, podemos usar o primeiro para produzir o segundo. Causalidade está muito próxima da ideia de uma regra, ou um modelo.

Correlação é diferente. Pode ser fruto da causalidade ou mero produto do acaso –e pode ser espúria! No livro “Spurious Correlations”, Tyler Vigen reúne exemplos divertidos de correlações. O número de doutores em engenharia civil nos EUA é altamente correlacionado ao consumo de queijo muçarela. Já o número de doutores em ciência da computação é fortemente correlacionado às vendas de HQs. Um favorito: o número de estudantes matriculados nas universidades norte-americanas corresponde quase perfeitamente ao número de acidentes domésticos causados por quedas de televisores.

E daí? Ora, correlações elevadíssimas podem ocorrer mesmo entre fatos não relacionados. E podem ser úteis: se soubermos que no próximo ano haverá muitos doutores em engenharia, será que vale a pena investir em muçarela? E se aumentar o número de calouros nas universidades, não seria o caso de prestar mais atenção aos televisores em casa? Não que exista uma regra que prescreva a relação entre estes fatos. Ainda assim, olhar pros dados pode nos indicar um caminho.

Até aqui a discussão é, digamos, platônica; os dados estariam corretos e descreveriam exatamente o que esperamos. Na realidade, as coisas não funcionam bem assim. Veja os censos do IBGE de 1991 e 2000. Os dados de cada questionário (microdados) contêm informação muito valiosa. Em particular, nos permitem comparar várias dimensões da vida econômica e social no país em dois momentos. Mas há alguns detalhes.

A moeda nacional não era a mesma em 1991 e 2000, tampouco o número de municípios no país. Ou seja, apesar da correção dos dados e do exame de analistas muito experientes, há sutilezas que podem levar a imprecisões se os atores do processo não estiverem articulados. Como no caso recente sobre vacinas supostamente vencidas, em que um esforço multidimensional para informar levou profissionais a revisitar dados e conclusões, e a forma como eles são obtidos. Do ponto de vista da análise de dados, o aprendizado e o refinamento que resultam desses processos se tornam patrimônio social e melhoram a vida das pessoas.

Seja pela causalidade, seja por meio de correlações inimagináveis, ou até pela estranheza das conclusões, os dados estão lançados. Basta perguntar.

*

Edgard Pimentel é matemático e professor da PUC-Rio.

Inscreva-se na newsletter do Serrapilheira para acompanhar mais novidades do instituto e do blog Ciência Fundamental.