A regra do intervalo interquartil é útil na detecção da presença de valores discrepantes. Outliers são valores individuais que ficam fora do padrão geral de um conjunto de dados. Essa definição é um tanto vaga e subjetiva, por isso é útil ter uma regra a ser aplicada quando determinar se um ponto de dados é realmente um erro externo - é aí que a regra do intervalo interquartil entra.
Qualquer conjunto de dados pode ser descrito por sua resumo de cinco números. Esses cinco números, que fornecem as informações necessárias para encontrar padrões e valores discrepantes, consistem em (em ordem crescente):
Esses cinco números dizem a uma pessoa mais sobre seus dados do que olhar para os números de uma só vez poderia, ou pelo menos tornar isso muito mais fácil. Por exemplo, o alcance, que é o mínimo subtraído do máximo, é um indicador de como os dados estão espalhados em um conjunto (observação: o intervalo é altamente sensível a outliers - se um outlier também for mínimo ou máximo, o intervalo não será uma representação precisa da amplitude de um dado conjunto).
Caso contrário, seria difícil extrapolar o alcance. Semelhante ao intervalo, mas menos sensível aos outliers é o intervalo interquartil. o intervalo interquartil é calculado da mesma maneira que o intervalo. Tudo o que você faz para descobrir isso é subtrair o primeiro quartil do terceiro quartil:
O intervalo interquartil mostra como os dados são espalhados sobre a mediana. É menos suscetível do que a faixa de outliers e pode, portanto, ser mais útil.
Embora muitas vezes não seja muito afetado por eles, o intervalo interquartil pode ser usado para detectar discrepâncias. Isso é feito usando estas etapas:
Lembre-se de que a regra interquartil é apenas uma regra prática que geralmente se aplica, mas não se aplica a todos os casos. Em geral, você deve sempre acompanhar sua análise discrepante estudando os discrepantes resultantes para ver se fazem sentido. Qualquer potencial discrepante obtido pelo método interquartil deve ser examinado no contexto de todo o conjunto de dados.
Veja a regra do intervalo interquartil no trabalho com um exemplo. Suponha que você tenha o seguinte conjunto de dados: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. O resumo de cinco números para este conjunto de dados é mínimo = 1, primeiro quartil = 4, mediana = 7, terceiro quartil = 10 e máximo = 17. Você pode olhar para os dados e dizer automaticamente que 17 é um erro externo, mas o que a regra de intervalo interquartil diz?
Agora multiplique sua resposta por 1,5 para obter 1,5 x 6 = 9. Nove menos que o primeiro quartil é 4 - 9 = -5. Nenhum dado é menor que isso. Nove mais que o terceiro quartil é 10 + 9 = 19. Nenhum dado é maior que isso. Apesar do valor máximo ser cinco a mais do que o ponto de dados mais próximo, a regra do intervalo interquartil mostra que provavelmente não deve ser considerado um erro externo para esse conjunto de dados.