O termo curva de sino é usado para descrever o conceito matemático chamado distribuição normal, às vezes chamado de distribuição gaussiana. "Curva da campainha" refere-se à forma da campainha criada quando uma linha é plotada usando os pontos de dados de um item que atende aos critérios de distribuição normal.
Em uma curva de sino, o centro contém o maior número de um valor e, portanto, é o ponto mais alto do arco da linha. Este ponto é referido ao significar, mas, em termos simples, é o número mais alto de ocorrências de um elemento (em termos estatísticos, o modo).
Distribuição normal
O importante a ser observado sobre um distribuição normal é que a curva está concentrada no centro e diminui em ambos os lados. Isso é significativo, pois os dados têm menor tendência a produzir valores extraordinariamente extremos, chamados de outliers, em comparação com outras distribuições. Além disso, a curva da campainha significa que os dados são simétricos. Isso significa que você pode criar expectativas razoáveis quanto à possibilidade de um resultado estar dentro de um à esquerda ou à direita do centro, depois de medir a quantidade de desvio contida nos dados. Isso é medido em termos de
desvio padrão.Um gráfico de curva de sino depende de dois fatores: a média e o desvio padrão. A média identifica a posição do centro e o desvio padrão determina a altura e a largura do sino. Por exemplo, um grande desvio padrão cria um sino curto e largo, enquanto um pequeno desvio padrão cria uma curva alta e estreita.
Probabilidade da curva de sino e desvio padrão
Para entender os fatores de probabilidade de uma distribuição normal, você precisa entender as seguintes regras:
- A área total sob a curva é igual a 1 (100%)
- Cerca de 68% da área sob a curva está dentro de um desvio padrão.
- Cerca de 95% da área sob a curva está dentro de dois desvios padrão.
- Cerca de 99,7% da área sob a curva está dentro de três desvios padrão.
Os itens 2, 3 e 4 acima são algumas vezes referidos como regra empírica ou regra 68-95-99,7. Depois de determinar que os dados são normalmente distribuídos (sino curvado) e calcule a média e desvio padrão, você pode determinar o probabilidade que um único ponto de dados estará dentro de um determinado intervalo de possibilidades.
Exemplo de curva de sino
Um bom exemplo de curva de sino ou distribuição normal é o rolo de dois dados. A distribuição é centrada em torno do número sete e a probabilidade diminui à medida que você se afasta do centro.
Aqui está a porcentagem de chance dos vários resultados quando você joga dois dados.
- Dois: (1/36) 2.78%
- Três: (2/36) 5.56%
- Quatro: (3/36) 8.33%
- Cinco: (4/36) 11.11%
- Seis: (5/36) 13.89%
- Sete: (6/36) 16,67% = resultado mais provável
- Oito: (5/36) 13.89%
- Nove: (4/36) 11.11%
- Dez: (3/36) 8.33%
- Onze: (2/36) 5.56%
- Doze: (1/36) 2.78%
As distribuições normais têm muitas propriedades convenientes, portanto, em muitos casos, especialmente em física e astronomia, variações aleatórias com distribuições desconhecidas geralmente são consideradas normais para permitir cálculos de probabilidade. Embora isso possa ser uma suposição perigosa, geralmente é uma boa aproximação devido a um resultado surpreendente conhecido como Teorema do limite central.
Este teorema afirma que a média de qualquer conjunto de variantes com qualquer distribuição com média finita e variância tende a ocorrer em uma distribuição normal. Muitos atributos comuns, como pontuações ou altura de testes, seguem distribuições aproximadamente normais, com poucos membros nas extremidades alta e baixa e muitos no meio.
Quando você não deve usar a curva de sino
Existem alguns tipos de dados que não seguem um padrão de distribuição normal. Esses conjuntos de dados não devem ser forçados a tentar ajustar uma curva de sino. Um exemplo clássico seriam as notas dos alunos, que geralmente têm dois modos. Outros tipos de dados que não seguem a curva incluem renda, crescimento populacional e falhas mecânicas.