O que é o paradoxo de Simpson nas estatísticas?

UMA paradoxo é uma afirmação ou fenômeno que parece superficialmente contraditório. Os paradoxos ajudam a revelar a verdade subjacente sob a superfície do que parece absurdo. No campo da estatística, o paradoxo de Simpson demonstra que tipos de problemas resultam da combinação de dados de vários grupos.

Com todos os dados, precisamos ter cuidado. De onde veio? Como foi obtido? E o que realmente está dizendo? Todas essas são boas perguntas que devemos fazer quando apresentadas com dados. O caso muito surpreendente do paradoxo de Simpson mostra que às vezes o que os dados parecem estar dizendo não é realmente o caso.

Uma visão geral do paradoxo

Suponha que estamos observando vários grupos e estabelecemos um relacionamento ou correlação para cada um desses grupos. O paradoxo de Simpson diz que, quando combinamos todos os grupos e analisamos os dados de forma agregada, a correlação que observamos antes pode se reverter. Isso geralmente ocorre devido a variáveis ​​ocultas que não foram consideradas, mas às vezes é devido aos valores numéricos dos dados.

instagram viewer

Exemplo

Para entender um pouco mais o paradoxo de Simpson, vejamos o exemplo a seguir. Em um determinado hospital, existem dois cirurgiões. O cirurgião A opera em 100 pacientes e 95 sobrevivem. O cirurgião B opera em 80 pacientes e 72 sobrevivem. Estamos pensando em fazer uma cirurgia neste hospital e viver a operação é algo importante. Queremos escolher o melhor dos dois cirurgiões.

Analisamos os dados e os usamos para calcular qual porcentagem de pacientes do cirurgião A sobreviveu às operações e compará-la com a taxa de sobrevivência dos pacientes do cirurgião B.

  • 95 dos 100 pacientes sobreviveram com o cirurgião A, então 95/100 = 95% deles sobreviveram.
  • 72 pacientes de 80 sobreviveram com o cirurgião B, portanto 72/80 = 90% deles sobreviveram.

A partir dessa análise, qual cirurgião devemos escolher nos tratar? Parece que o cirurgião A é a aposta mais segura. Mas isso é realmente verdade?

E se fizéssemos alguma pesquisa adicional sobre os dados e descobríssemos que originalmente o hospital havia considerado dois tipos diferentes de cirurgias, mas depois agruparam todos os dados para relatar cada uma de suas cirurgiões. Nem todas as cirurgias são iguais, algumas foram consideradas cirurgias de emergência de alto risco, enquanto outras eram de natureza mais rotineira, previamente agendadas.

Dos 100 pacientes tratados pelo cirurgião A, 50 eram de alto risco, dos quais três morreram. Os outros 50 foram considerados rotineiros e destes 2 morreram. Isso significa que, para uma cirurgia de rotina, um paciente tratado pelo cirurgião A tem uma taxa de sobrevida de 48/50 = 96%.

Agora, examinamos com mais atenção os dados do cirurgião B e descobrimos que dos 80 pacientes, 40 eram de alto risco, dos quais sete morreram. Os outros 40 eram rotineiros e apenas um morreu. Isso significa que um paciente tem uma taxa de sobrevida de 39/40 = 97,5% para uma cirurgia de rotina com o cirurgião B.

Agora, qual cirurgião parece melhor? Se sua cirurgia deve ser rotineira, o cirurgião B é realmente o melhor cirurgião. Se olharmos para todas as cirurgias realizadas pelos cirurgiões, A é melhor. Isso é bastante contra-intuitivo. Nesse caso, a variável oculta do tipo de cirurgia afeta os dados combinados dos cirurgiões.

História do Paradoxo de Simpson

O paradoxo de Simpson recebeu o nome de Edward Simpson, que primeiro descreveu esse paradoxo no artigo de 1951 "A interpretação da interação nas tabelas de contingência" da Jornal da Sociedade Estatística Real. Pearson e Yule observaram um paradoxo semelhante meio século antes que Simpson, então o paradoxo de Simpson às vezes também é chamado de efeito Simpson-Yule.

Existem muitas aplicações abrangentes do paradoxo em áreas tão diversas quanto estatísticas esportivas e dados de desemprego. Sempre que os dados forem agregados, observe esse paradoxo.

instagram story viewer