Um dia, no almoço, uma jovem mulher estava tomando uma grande tigela de sorvete, e um colega se aproximou dela e disse: “É melhor você ter cuidado, existe uma alta estatísticocorrelação entre sorvete e afogamento. " Ela deve ter dado a ele um olhar confuso, enquanto ele elaborava um pouco mais. "Os dias com mais vendas de sorvete também veem o maior número de pessoas se afogar."
Quando ela terminou meu sorvete, os dois colegas discutiram o fato de que apenas porque uma variável está associada estatisticamente a outra, isso não significa que uma é a causa da outra. Às vezes, há uma variável oculta em segundo plano. Nesse caso, o dia do ano está oculto nos dados. Mais sorvete é vendido nos dias quentes de verão do que nos nevados do inverno. Mais pessoas nadam no verão e, portanto, mais se afogam no verão do que no inverno.
Cuidado com as variáveis ocultas
A anedota acima é um excelente exemplo do que é conhecido como variável à espreita. Como o próprio nome sugere, uma variável oculta pode ser ilusória e difícil de detectar. Quando descobrimos que dois conjuntos de dados numéricos estão fortemente correlacionados, devemos sempre perguntar: "Pode haver algo mais que esteja causando esse relacionamento?"
A seguir, exemplos de forte correlação causada por uma variável oculta:
- O número médio de computadores por pessoa em um país e a expectativa de vida média desse país.
- O número de bombeiros em um incêndio e os danos causados pelo incêndio.
- A altura de um aluno do ensino fundamental e seu nível de leitura.
Em todos esses casos, a relação entre as variáveis é muito forte. Isso normalmente é indicado por um coeficiente de correlação que tenha um valor próximo de 1 ou de -1. Não importa quão próximo esse coeficiente de correlação seja de 1 ou de -1, essa estatística não pode mostrar que uma variável é a causa da outra variável.
Detecção de variáveis ocultas
Por sua natureza, variáveis ocultas são difíceis de detectar. Uma estratégia, se disponível, é examinar o que acontece com os dados ao longo do tempo. Isso pode revelar tendências sazonais, como o exemplo de sorvete, que são obscurecidas quando os dados são agrupados. Outro método é olhar para outliers e tente determinar o que os torna diferentes dos outros dados. Às vezes, isso fornece uma dica do que está acontecendo nos bastidores. O melhor curso de ação é ser proativo; questione suposições e experimente cuidadosamente.
Por que isso Importa?
No cenário de abertura, suponha que um congressista bem-intencionado, mas estatisticamente desinformado, propusesse proibir todo sorvete, a fim de evitar afogamentos. Tal projeto incomodaria grandes segmentos da população, forçaria várias empresas à falência e eliminaria milhares de empregos quando a indústria de sorvete do país fosse fechada. Apesar das melhores intenções, esse projeto não diminuiria o número de mortes por afogamento.
Se esse exemplo parecer um pouco exagerado, considere o seguinte, o que realmente aconteceu. No início de 1900, os médicos notaram que algumas crianças estavam morrendo misteriosamente durante o sono devido a problemas respiratórios. Isso foi chamado de morte no berço e agora é conhecido como SIDS. Uma coisa que se destacou nas autópsias realizadas naqueles que morreram de SMSL foi um timo aumentado, uma glândula localizada no peito. A partir da correlação das glândulas do timo aumentadas em bebês com SMSL, os médicos presumiram que um timo anormalmente grande causasse respiração e morte inadequadas.
A solução proposta era encolher o timo com altas doses de radiação ou remover completamente a glândula. Esses procedimentos tiveram uma alta taxa de mortalidade e levaram a ainda mais mortes. O que é triste é que essas operações não precisavam ter sido executadas. Pesquisas subsequentes mostraram que esses médicos estavam errados em suas suposições e que o timo não é responsável por SMSI.
Correlação não implica em causa
O exposto acima deve fazer-nos parar quando pensamos que evidências estatísticas são usadas para justificar coisas como esquemas médicos, legislação e propostas educacionais. É importante que seja feito um bom trabalho na interpretação dos dados, especialmente se os resultados que envolvem correlação afetarão a vida de outras pessoas.
Quando alguém declara: "Os estudos mostram que A é uma causa de B e algumas estatísticas a apoiam", esteja pronto para resposta, "correlação não implica causalidade". Esteja sempre atento ao que se esconde embaixo do dados.