Intervalo de confiança para a diferença de duas proporções populacionais

Intervalos de confiança são uma parte de Estatística inferencial. A idéia básica por trás deste tópico é estimar o valor de uma população desconhecida parâmetro usando uma amostra estatística. Não podemos apenas estimar o valor de um parâmetro, mas também podemos adaptar nossos métodos para estimar a diferença entre dois parâmetros relacionados. Por exemplo, podemos encontrar a diferença na porcentagem da população masculina votante nos EUA que apóia uma parte específica da legislação em comparação com a população feminina votante.

Veremos como fazer esse tipo de cálculo, construindo um intervalo de confiança para a diferença de duas proporções populacionais. No processo, examinaremos parte da teoria por trás desse cálculo. Veremos algumas semelhanças em como construímos um intervalo de confiança para uma única proporção da população bem como um intervalo de confiança para a diferença de duas populações significa.

Generalidades

Antes de examinar a fórmula específica que usaremos, vamos considerar a estrutura geral em que esse tipo de intervalo de confiança se encaixa. A forma do tipo de intervalo de confiança que examinaremos é dada pela seguinte fórmula:

instagram viewer

Estimativa +/- Margem de erro

Muitos intervalos de confiança são desse tipo. Existem dois números que precisamos calcular. O primeiro desses valores é a estimativa para o parâmetro. O segundo valor é a margem de erro. Essa margem de erro é responsável pelo fato de termos uma estimativa. O intervalo de confiança nos fornece um intervalo de valores possíveis para o nosso parâmetro desconhecido.

Condições

Devemos garantir que todas as condições sejam atendidas antes de fazer qualquer cálculo. Para encontrar um intervalo de confiança para a diferença de duas proporções populacionais, precisamos garantir que o seguinte seja válido:

  • Temos dois amostras aleatórias simples de grandes populações. Aqui "grande" significa que a população é pelo menos 20 vezes maior que o tamanho da amostra. Os tamanhos das amostras serão indicados por n1 e n2.
  • Nossos indivíduos foram escolhidos independentemente um do outro.
  • Há pelo menos dez sucessos e dez falhas em cada uma de nossas amostras.

Se o último item da lista não estiver satisfeito, pode haver uma maneira de contornar isso. Nós podemos modificar o intervalo de confiança mais quatro construção e obter resultados robustos. À medida que avançamos, assumimos que todas as condições acima foram atendidas.

Amostras e proporções populacionais

Agora estamos prontos para construir nosso intervalo de confiança. Começamos com a estimativa da diferença entre as proporções da nossa população. Ambas as proporções populacionais são estimadas por uma proporção amostral. Essas proporções de amostra são estatísticas encontradas dividindo o número de sucessos em cada amostra e, em seguida, dividindo pelo respectivo tamanho da amostra.

A primeira proporção da população é denotada por p1. Se o número de sucessos em nossa amostra dessa população for k1, temos uma proporção de amostra de k1 / n1.

Denotamos essa estatística por p̂1. Lemos este símbolo como "p1-que "porque se parece com o símbolo p1 com um chapéu em cima.

De maneira semelhante, podemos calcular uma proporção amostral de nossa segunda população. O parâmetro dessa população é p2. Se o número de sucessos em nossa amostra dessa população for k2, e nossa proporção da amostra é p̂2 = k2 / n2.

Essas duas estatísticas se tornam a primeira parte do nosso intervalo de confiança. A estimativa de p1 é p1. A estimativa de p2 é p2. Então a estimativa para a diferença p1 - p2 é p1 - p2.

Distribuição amostral da diferença de proporções amostrais

Em seguida, precisamos obter a fórmula para a margem de erro. Para fazer isso, primeiro consideraremos o distribuição de amostras de p1 . Esta é uma distribuição binomial com probabilidade de sucesso p1 e n1 ensaios. A média dessa distribuição é a proporção p1. O desvio padrão desse tipo de variável aleatória tem variação de p1 (1 - p1 )/n1.

A distribuição amostral de p̂2 é semelhante ao de p1 . Simplesmente altere todos os índices de 1 para 2 e temos uma distribuição binomial com média de p2 e variação de p2 (1 - p2 )/n2.

Agora precisamos de alguns resultados de estatísticas matemáticas para determinar a distribuição amostral de p̂1 - p2. A média dessa distribuição é p1 - p2. Devido ao fato de que as variações se somam, vemos que a variação da distribuição amostral é p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. O desvio padrão da distribuição é a raiz quadrada dessa fórmula.

Existem alguns ajustes que precisamos fazer. A primeira é que a fórmula para o desvio padrão de p̂1 - p2 usa os parâmetros desconhecidos de p1 e p2. Obviamente, se realmente conhecêssemos esses valores, não seria um problema estatístico interessante. Não precisaríamos estimar a diferença entre p1 e p2.. Em vez disso, poderíamos simplesmente calcular a diferença exata.

Esse problema pode ser corrigido calculando um erro padrão em vez de um desvio padrão. Tudo o que precisamos fazer é substituir as proporções da população por proporções da amostra. Os erros padrão são calculados a partir das estatísticas, em vez dos parâmetros. Um erro padrão é útil porque estima efetivamente um desvio padrão. O que isso significa para nós é que não precisamos mais saber o valor dos parâmetros p1 e p2. .Como essas proporções de amostra são conhecidas, o erro padrão é dado pela raiz quadrada da seguinte expressão:

1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.

O segundo item que precisamos abordar é a forma específica de nossa distribuição amostral. Acontece que podemos usar uma distribuição normal para aproximar a distribuição amostral de p̂1 - p2. A razão para isso é um pouco técnica, mas é descrita no próximo parágrafo.

Ambos p̂1 e P2 ter uma distribuição de amostragem binomial. Cada uma dessas distribuições binomiais pode ser bem aproximada por uma distribuição normal. Assim p̂1 - p2 é uma variável aleatória. É formado como uma combinação linear de duas variáveis ​​aleatórias. Cada um deles é aproximado por uma distribuição normal. Portanto, a distribuição amostral de p̂1 - p2 também é normalmente distribuído.

Fórmula de intervalo de confiança

Agora temos tudo o que precisamos para montar nosso intervalo de confiança. A estimativa é (p̂1 - p2) e a margem de erro é z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. O valor que inserimos para z * é ditado pelo nível de confiança C. Valores comumente usados ​​para z * são 1,645 para 90% de confiança e 1,96 para 95% de confiança. Esses valores para z * denotar a parte da distribuição normal padrão onde exatamente C por cento da distribuição está entre -z * e z *.

A fórmula a seguir fornece um intervalo de confiança para a diferença de duas proporções populacionais:

(p1 - p2) +/- z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5

instagram story viewer