Outliers são valores de dados que diferem muito da maioria de um conjunto de dados. Esses valores ficam fora de uma tendência geral que está presente nos dados. Um exame cuidadoso de um conjunto de dados para procurar outliers causa alguma dificuldade. Embora seja fácil ver, possivelmente pelo uso de um gráfico de tronco, que alguns valores diferem do restante dos dados, qual a diferença entre o valor e o valor que deve ser considerado um valor externo? Examinaremos uma medida específica que nos dará um padrão objetivo do que constitui um outlier.
Intervalo Interquartil
o intervalo interquartil é o que podemos usar para determinar se um valor extremo é realmente um valor externo. O intervalo interquartil é baseado em parte do resumo de cinco números de um conjunto de dados, ou seja, o primeiro quartil e terceiro quartil. O cálculo da faixa interquartil envolve uma única operação aritmética. Tudo o que precisamos fazer para encontrar a faixa interquartil é subtrair o primeiro quartil do terceiro quartil. A diferença resultante nos diz como está espalhada a metade do meio de nossos dados.
Determinando Outliers
Multiplicar o intervalo interquartil (IQR) por 1,5 nos dará uma maneira de determinar se um determinado valor é um valor externo. Se subtrairmos 1,5 x IQR do primeiro quartil, quaisquer valores de dados inferiores a esse número serão considerados outliers. Da mesma forma, se adicionarmos 1,5 x IQR ao terceiro quartil, quaisquer valores de dados maiores que esse número serão considerados outliers.
Outliers fortes
Alguns outliers mostram um desvio extremo do restante de um conjunto de dados. Nesses casos, podemos executar as etapas acima, alterando apenas o número pelo qual multiplicamos o IQR e definir um certo tipo de discrepância. Se subtrairmos 3,0 x IQR do primeiro quartil, qualquer ponto abaixo desse número será chamado de forte desvio. Da mesma forma, a adição de 3,0 x IQR ao terceiro quartil nos permite definir valores discrepantes fortes observando pontos que são maiores que esse número.
Outliers fracos
Além de valores discrepantes fortes, há outra categoria para valores discrepantes. Se um valor de dados for um outlier, mas não um outlier forte, dizemos que o valor é um outlier fraco. Examinaremos esses conceitos explorando alguns exemplos.
Exemplo 1
Primeiro, suponha que tenhamos o conjunto de dados {1, 2, 2, 3, 3, 4, 5, 5, 9}. O número 9 certamente parece que poderia ser um erro. É muito maior que qualquer outro valor do resto do conjunto. Para determinar objetivamente se 9 é um erro externo, usamos os métodos acima. O primeiro quartil é 2 e o terceiro quartil é 5, o que significa que o intervalo interquartil é 3. Multiplicamos o intervalo interquartil por 1,5, obtendo 4,5 e, em seguida, adicionamos esse número ao terceiro quartil. O resultado, 9,5, é maior que qualquer um dos nossos valores de dados. Portanto, não há discrepâncias.
Exemplo 2
Agora, examinamos o mesmo conjunto de dados de antes, com a exceção de que o maior valor é 10 em vez de 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. O primeiro quartil, terceiro quartil e intervalo interquartil são idênticos ao exemplo 1. Quando adicionamos 1,5 x IQR = 4,5 ao terceiro quartil, a soma é 9,5. Como 10 é maior que 9,5, é considerado um erro externo.
10 é um valor externo forte ou fraco? Para isso, precisamos considerar 3 x IQR = 9. Quando adicionamos 9 ao terceiro quartil, terminamos com uma soma de 14. Como 10 não é maior que 14, não é um desvio muito forte. Assim, concluímos que 10 é um valor discrepante fraco.
Razões para identificar discrepantes
Sempre precisamos estar atentos a discrepâncias. Às vezes, eles são causados por um erro. Outras vezes, os outliers indicam a presença de um fenômeno anteriormente desconhecido. Outra razão pela qual precisamos ser diligentes na verificação de valores discrepantes é por causa de todas as estatísticas descritivas sensíveis a valores discrepantes. O significativo, desvio padrão coeficiente de correlação para dados emparelhados são apenas alguns desses tipos de estatísticas.