Valor atípico
Foram assinalados vários problemas nesta página ou se(c)ção: |
Em estatística, outlier,[1] valor aberrante ou valor atípico, é uma observação que apresenta um grande afastamento das demais da série [2] (que está "fora" dela), ou que é inconsistente. A existência de outliers implica, tipicamente, em prejuízos à interpretação dos resultados dos testes estatísticos aplicados às amostras.
“Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto” (Hawkins, 1980), em outras palavras os outliers são dados que se distanciam radicalmente de todos os outros São pontos fora da curva normal, valores que fogem da normalidade e que podem causar desequilíbrio nos resultados obtidos. Um conjunto de dados pode apresentar um ou vários outliers. O efeito de um outlier é quase um efeito borboleta, um pequeno erro se propaga e quando não tratado corretamente pode ocasionar problemas e anomalias. Em análises estatísticas o efeito do outlier pode ser facilmente observado.
É essencial entender os outliers no âmbito da análise de dados, pois estes podem comprometer de forma negativa os resultados de uma análise, do mesmo modo podem ser exatamente o que se desejar encontrar. O termo outliers é também conhecido por como dados discrepantes; pontos fora da curva; observações fora do comum; anomalias e valores atípicos.
Os outliers podem ser divididos em dois grupos os univariados e os multivariados. O primeiro caso é verificado ao se analisar a distribuição de uma variável simples: analisando apenas a distribuição de idades pode-se verificar a presença do outlier. O outlier multivariado pode ser detectado em espaço “n-dimensional”. É necessário recorrer a distribuições multidimensionais para poder observa-lo.
Os outliers ou valores atípicos podem ser causados por vários fatores, podem ser naturais ou artificiais, no caso de outliers naturais pode-se pensar em alguém que declarou sua renda, e se saiu muito melhor, ou pior do que o restante de pessoas de seu perfil econômico. Os valores atípicos artificiais podem ser devido a uma leitura ou erro de anotações e transcrição incorreta de dados, bem como mudanças não controláveis nas condições experimentais. Os dados discrepantes podem ser detectados através de uma verificação lógica dos dados, inclusive fazer o uso de gráficos e testes apropriados. O gráfico mais usado é o box plot.
Após a detecção de um outlier deve-se excluí-lo ou conserva-lo, dependendo do real motivo para o aparecimento dessa variável. Caso haja motivos concretos como um erro na observação ou na execução do experimento o certo é eliminá-lo, mas se não houver explicação para o aparecimento deste dado então ele pode refletir uma característica do que está sendo estudado, neste caso a observação feita deve ser incluída na análise e deve ser tratada especialmente, realizar uma análise separada somente com esses dados. separá-los em dois grupos e criar modelos específicos para analisá-los.
- Calculando um outlier
Considerando um conjunto de dados que representa a temperatura de oito objetos, e a temperatura normal desses objetos é entre 15 e 25 º C, mas um dos objetos obteve a temperatura de 45 º C, analisando rapidamente esse valor pode-se afirmar que se trata de um outlier. Para calcular primeiro é preciso ordenar esses valores em ordem crescente. Com essa classificação já é possível perceber dois dados o número mínimo (15) e máximo (45) O próximo passo é definir a mediana do conjunto de dados. Para isso é preciso somar os dois números do meio e dividi-lo por dois (21+21/2 = 21), já que a quantidade de valores é par, caso fosse ímpar era só encontrar o valor central, em seguida deve-se encontrar os quartis. O quartil 1 é o número médio do intervalo à esquerda da mediana (15, 15, 20, 21), como se trata de um conjunto de dados pares então deve-se fatorar os valores novamente (15+20/2 = Q1= 17,5). O quartil 3 é o número médio do intervalo à direita da mediana (21, 22, 25, 45 = 22+25/2 = Q 3 = 23,5) o próximo passo é encontrar as “barreiras internas” do conjunto de dados. O primeiro multiplicar a diferença entre Q1 e Q3 (chamada amplitude interquartílica) por 1,5 (23,5 -17,5 =6 * 1,5 = 9) em seguida adiciona esse número ao Q3 (23,5+ 9= 32,5) e subtraia do Q1 para construir as barreiras(17,5 – 9= 8,5), as barreiras internas superior e inferior seriam 32,5 e 8,5. Todos os dados analisados que estiverem fora dessa amplitude são considerados outliers moderados e por último deve-se encontrar as “barreiras externas” do conjunto de dados, a única coisa que difere esse passo do anterior é que a amplitude interquartílica é multiplicada por 3, em vez de 1,5. Ao multiplicar a amplitude interquartílica acima por 3, temos (6 * 3), ou 18. Deste modo, as barreiras externas superior e inferior são 41,5 e 0,5. Qualquer valor observacional que se encontrar fora das barreiras externas é considerado um outlier extremo.[3]
Cód. Compra | Nome | idade | Valor da compra |
---|---|---|---|
01 | Adrielle Rocha | 20 | R$ 2.400,00 |
02 | Regicleide Feitosa | 30 | R$ 6.035,00 |
03 | Sebastiana Mendes | 330 | R$ 1.000,00 |
Objeto | Temperatura ° C |
---|---|
Objeto 1 | 20 |
Objeto 2 | 15 |
Objeto 3 | 15 |
Objeto 4 | 21 |
Objeto 5 | 25 |
Objeto 6 | 45 |
Objeto 7 | 22 |
Objeto 8 | 21 |
Escore Z
Um dos métodos é o do escore z, ou do desvio padrão. Neste método, será considerado outlier o valor se encontrar a uma determinada quantidade de desvios padrões da média. A quantidade destes desvios pode variar conforme o tamanho da amostra.[4]
Referências
- ↑ «outlier». Dicionário da Língua Portuguesa da Porto Editora. Infopédia
- ↑ Fora de série - Outliers Malcolm Gladwell ISBN 9788575424483
- ↑ Sander, Carlos. Passo a passo como fazer um box plot. CAE, 2019; em caetreinamentos.com.br/blog/ferramentas
- ↑ http://www.estv.ipv.pt/PaginasPessoais/psarabando/CET%20%20Ambiente%202008-2009/Slides/8.%20Outliers.pdf
Bibliografia
- Outliers, o que são e como tratá-los em uma análise de dados?; em www.aquare.la. Consultado em 24 de outubro de 2020
- «Outliers: Descubra o que são e como contorná-los em sua análise de dados». www.bixtecnologia.com. 26 de setembro de 2018. Consultado em 24 de outubro de 2020
- Salles, Rodrigo. Outlier: O ponto fora da curva. Ensina ai, 2018; em medium.com/ensinaai/. Consultado em 24 de outubro de 2020
- Soares, José Francisco. Siqueira, Arminda Lucia. Introdução à estatística médica: Descrição e apresentação de dados. 1. ed. Belo Horizonte: COOPMED, 2002. cap. 3, p. 33-78