Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Qualquer pessoa que se dedica à econometria presta atenção a esta conta

Todos os programas de código, bancos de dados macro e micro e vários softwares da metodologia do círculo econométrico são colocados na comunidade Bem-vindo à comunidade do círculo econométrico para trocas e visitas.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Com relação à compilação de métodos de medição, os acadêmicos podem visualizar os seguintes artigos: ① "200 artigos usados em pesquisas empíricas, um kit de ferramentas para estudiosos das ciências sociais", ②50 publicações de experiências famosas comumente usadas na redação de artigos empíricos, uma série de leitura obrigatória pelos alunos , ③ Nos últimos 10 anos, os artigos da AER sobre tópicos chineses, ④AEA anunciou os dez principais tópicos de pesquisa que receberam mais atenção em 2017-19, dando a você a direção da seleção de tópicos, ⑤ A direção de seleção de tópicos principais dos principais jornais chineses em 2020 , basta escrevê-los para escrever artigos. Posteriormente, apresentamos uma coleção de artigos selecionados para pesquisa empírica usando dados CFPS, CHFS e CHNS! , ②Estes 40 micro-bancos de dados são suficientes para o seu Ph.D., de qualquer forma, contando com essas bibliotecas para se tornar um professor, ③A coleção de teclas de atalho mais completa da história do software Python, Stata, R! , ④ 100 álbuns de artigos selecionados sobre design de regressão de ponto de interrupção (difuso)! , ⑤ 32 artigos selecionados de DID sobre o método da dupla diferença! , ⑥ 33 artigos selecionados do SCM sobre o método de controle de síntese! ⑦ Compilação dos mais recentes 80 artigos sobre a área de comércio internacional da China! ⑧Compilação de 70 artigos econômicos recentes sobre a ecologia ambiental da China! ⑨ Uma coleção de artigos selecionados usando pesquisa empírica de banco de dados CEPS, CHARLS, CGSS, CLHLS! ⑩ Compilação dos últimos 50 artigos utilizando o sistema GMM para realização de pesquisas empíricas! Esses artigos foram bem recebidos e discutidos por estudiosos.

Recentemente, apresentamos ①como escolher a variável independente correta (variável de controle) para que seu modelo de medição não fique mais sujo, ②as consequências de ignorar o efeito de interação são muito sérias e o revisor está muito irritado! , ③Nos últimos trinta anos, o roteiro do "momento de alta luz" de RCT, DID, RDD, LE, ML, DSGE e outros métodos, ④A compilação de documentos empíricos mais recentes de DID espacial, ⑤Métodos de aprendizagem de máquina apareceram em revistas AER Top, como JPE , QJE, ⑥O processo de teste de efeito de mediação, o diagrama esquemático é publicado, não tem mais medo de análise de mediação, ⑦Um resumo de 120 literaturas empíricas clássicas sobre vários métodos de identificação causal, reeTrês livros de métodos econométricos usando recomendações de livros de software R, ⑨Volume 1 (2 A compilação da série de programas mais recente e interessante do Stata, etc., tem despertado ampla discussão entre os estudiosos.

Sobre o texto abaixo do conteúdo, autor: Li Youmin, Economia e Gestão Agrícola da Universidade de Lanzhou, Comunicação E-mail: [email protected].

Imperdível: Demonstração da função de pesquisa e do processo de operação da conta pública do círculo econométrico

texto

O método de localização de outliers nos dados. Outliers
são pontos de dados que estão distantes de outros pontos de dados. Em outras palavras, eles são valores incomuns em um conjunto de dados. Os valores discrepantes são problemáticos para muitas análises estatísticas, porque podem nos permitir perder descobertas significativas ou distorcer os resultados reais.
Infelizmente, atualmente não há regras estatísticas rígidas que possam identificar claramente os outliers. Encontrar outliers depende do conhecimento da área temática e da compreensão do processo de coleta de dados. Mesmo que não haja uma definição matemática confiável, existem algumas diretrizes e testes estatísticos que podem ser usados para encontrar possíveis outliers.
Neste artigo, explicarei o que são valores discrepantes, por que são problemáticos e apresentarei várias maneiras de localizá-los. Além disso, compararei vários métodos de identificação de outliers e compartilharei alguns de meus métodos preferidos de identificação de outliers.
Outliers e seus efeitos
Outliers são um conceito simples, são valores significativamente diferentes de outros pontos de dados e podem causar problemas no processo estatístico.
Para demonstrar o grau de influência de um único valor discrepante nos resultados, vamos examinar as propriedades do conjunto de dados de amostra. Ele contém 15 observações de altura masculina. Um dos valores é um outlier. A tabela a seguir mostra a média e o desvio padrão com e sem outliers.
Neste artigo, usarei este conjunto de dados de amostra CSV.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo
Pela tabela, é fácil ver como um único valor discrepante distorce a situação real. Um outlier alterou a altitude média em 0,6 metros (2 pés) e o desvio padrão em 2,16 metros (7 pés)! O teste de hipóteses usando médias com valores discrepantes se desviará dos fatos. Além disso, um desvio padrão maior reduzirá seriamente o efeito estatístico!
O tema deste artigo é identificar potenciais outliers antes de realizar análises estatísticas. No próximo artigo, mostraremos como lidar com outliers.
Existem muitas maneiras de descobrir outliers. Todos esses métodos usam maneiras diferentes de encontrar valores incomuns em comparação com outras partes do conjunto de dados. Começarei com a avaliação visual e depois passarei para avaliações mais analíticas.
Aqui estão cinco maneiras de tentar descobrir outliers.
1. Classifique a tabela de dados para encontrar outliers
Classificar a tabela de dados é uma maneira simples e eficaz de descobrir outliers. Basta classificar as variáveis em cada tabela de dados e encontrar valores incomumente altos ou baixos.
Por exemplo, se você classificar o conjunto de dados a seguir em ordem crescente, poderá ver que o valor mais alto é significativamente diferente dos outros valores. Embora esse método não quantifique o grau de anormalidade dos outliers, fica claro à primeira vista e nos permite encontrar valores anormalmente altos ou anormalmente baixos.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

2. Desenhe gráficos de dados para identificar outliers.
Boxplots, histogramas e diagramas de dispersão podem destacar outliers.
Os gráficos de caixa indicam claramente quando o conjunto de dados contém valores discrepantes exibindo asteriscos ou outros símbolos no gráfico. Esses gráficos usam quartis delimitados para descobrir outliers, que serão explicados posteriormente. O gráfico de caixa abaixo mostra nosso conjunto de dados de exemplo. Obviamente, os valores discrepantes localizados diretamente acima são significativamente diferentes dos valores de dados típicos.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Ao agrupar os dados, você também pode usar gráficos de caixa para identificar outliers. O gráfico de caixa abaixo mostra que existem outliers no grupo "Método 2".
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

O histograma também enfatiza a existência de outliers. Conforme mostrado na figura, nosso outlier é a barra mais à direita. O gráfico possui um bloco no ponto de dados de texto mais à esquerda.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Neste artigo, a maioria dos outliers que discutimos são outliers univariados. Você pode encontrar valores além de uma distribuição observando os dados de uma única variável na distribuição de dados. No entanto, ao encontrar um conjunto multivariado, você pode usar um gráfico de dispersão para detectar possíveis outliers no conjunto de dados.
Na figura abaixo, observamos a relação entre entrada e saída. O gráfico de dispersão com linha de regressão mostra que a maioria dos pontos segue a linha reta de ajuste do modelo, mas os pontos marcados pelo círculo vermelho se desviam do modelo.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

O que é interessante é que o valor de entrada Input (aproximadamente 14) não é anormal, porque a faixa de outros valores de entrada no eixo X está entre 10 e 20. Além disso, observe que o valor de saída (aproximadamente 50) também está dentro da faixa de valores do eixo Y. Portanto, neste conjunto de dados, as próprias entradas e saídas não são comuns. No entanto, este ponto ainda é um outlier porque se desvia da linha reta do modelo.
Esse tipo de outlier pode ser um problema na análise de regressão. Em vista da natureza multifacetada da regressão múltipla, há muitos tipos de outliers nesse campo.
No restante deste artigo, vamos nos concentrar em outliers univariados.

O uso de escores Z para detectar valores discrepantes
pode quantificar as anomalias das observações em um conjunto de dados normalmente distribuído. O valor do Z-score representa o número de desvios padrão correspondentes a cada valor acima e abaixo da média. Por exemplo, uma pontuação Z de 2 indica que uma observação é dois desvios padrão mais altos do que a média, e uma pontuação Z de -2 indica que ela é dois desvios padrão mais baixos do que a média. Uma pontuação Z de zero significa que é igual à média.
Para calcular o escore Z de uma observação, precisamos subtrair a média e dividir pelo desvio padrão. Matematicamente, a fórmula para este processo é a seguinte:

Quanto mais longe o escore Z da observação estiver de zero, mais anormal será. Encontre outliers cujo valor crítico de desvio padrão é um Z-score de +/- 3, ou mais longe de zero. A seguinte distribuição de probabilidade mostra a distribuição dos escores Z na distribuição normal padrão. A pontuação Z excedendo +/- 3 é muito pequena e a área sombreada sob a curva é quase invisível.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Em uma população que segue uma distribuição normal, a probabilidade de que o escore Z seja menor que +/- 3 é 0,0027 (2 * 0,00135), que é cerca de uma entre 370 observações. No entanto, se os dados não seguem uma distribuição normal, este método pode ser impreciso.
O escore Z e nosso conjunto de dados de amostra estão
no conjunto de dados de amostra a seguir. Mostrarei os valores no conjunto de dados de amostra junto com o escore Z. Este método identificará outliers nas mesmas observações.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Observe que a pontuação Z em um pequeno conjunto de dados pode ser enganosa, porque o limite máximo da pontuação Z é (n-1) / sqrt (n). Na verdade, nossa pontuação Z é de cerca de 3,6 quando está perto de tamanho da amostra de 15. O valor máximo do escore Z. As observações com um tamanho de amostra de 10 ou menos não podem ter um Z-score que exceda o valor crítico de +/- 3.
Além disso, observe que, como vimos anteriormente, a presença de outliers mudará o Z-score porque aumentará a média e o desvio padrão. Observe que, exceto para outliers, todas as pontuações Z são negativas. Se calcularmos a pontuação Z sem outliers, eles serão diferentes! No entanto, também deve ser observado que se o conjunto de dados contiver valores discrepantes e o valor Z for tendencioso, o escore z pode não ser tão extremo quanto antes (ou seja, próximo de zero).
4. Use intervalos de quantis para criar limites de outliers.Você
pode usar intervalos interquartis (IQR), valores de múltiplos quartil e um fator de ajuste para calcular os limites que constituem os outliers menores e maiores. Em comparação com os valores menores do valor de distribuição geral, os valores discrepantes principais são mais extremos, e os analistas os dividem em valores discrepantes suaves e extremos.
IQR é o meio 50% do conjunto de dados. É o intervalo de valores entre o terceiro quartil e o primeiro quartil (Q3 = Q1). Podemos usar os valores IQR, Q1 e Q3 para calcular os seguintes limites de intervalo de valores discrepantes do conjunto de dados: camada externa inferior, camada interna inferior, camada interna superior e camada externa superior. Use esses quatro pontos para determinar se os pontos de dados são outliers e se são moderados ou extremos.
Os valores que se enquadram nos dois limites internos não são outliers. Ilustramos esse processo com exemplos.
Usando o intervalo do quartil para calcular o limite de outlier.
Usando um software estatístico, podemos determinar o intervalo do quartil e os valores Q1 e Q3 do conjunto de dados da amostra. Precisamos desses valores para calcular os "limites" para identificar outliers menores e maiores. A saída a seguir indica que nosso valor do primeiro trimestre é 1,714 e o valor do terceiro trimestre é 1,936. Nosso IQR é 1,936 = 1,714 = 0,222.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Para calcular o limite de outlier, precisamos fazer o seguinte:
multiplique seu IQR por 1,5 e 3. Usaremos esses valores para obter os limites internos e externos. Para nosso exemplo, IQR é igual a 0,222. Portanto, 0,222 1,5 = 0,333 e 0,222 3 = 0,666. Usaremos 0,333 e 0,666 nas etapas a seguir.

Calcule os limites inferiores interno e externo. Obtenha o valor Q1 e subtraia os dois valores obtidos na etapa 1 do valor Q1. Os dois resultados são limites inferiores internos e externos atípicos. Em nosso exemplo, Q1 é 1,714. Portanto, o limite interno inferior = 1,714-0,333 = 1,381 e o limite externo inferior = 1,714-0,666 = 1,048.

Calcule os limites superiores internos e externos. Obtenha o valor Q3 e adicione o valor Q1 aos dois valores obtidos na etapa 1. Os dois resultados são os limites superiores internos e superiores. Para nosso exemplo, Q3 é 1,936. Portanto, o limite interno superior = 1,936 + 0,333 = 2,269 e o limite externo superior = 1,936 + 0,666 = 2,602.

Usando limites atípicos e
conjunto de dados de exemplo Para nosso conjunto de dados de exemplo, esses valores de nó são os seguintes: 1,048, 1,381, 2,269, 2,602. Quase todos os dados devem estar dentro dos limites internos, ou seja, entre 1.381 e 2.269. Neste ponto, examinamos os valores dos dados e determinamos se algum deles está restrito a valores discrepantes maiores ou menores. Dos 15 pontos de dados, 14 estão dentro dos limites internos e não são outliers. O 15º ponto de dados está fora do limite externo superior, portanto, é um outlier principal ou extremo.
O método IQR é útil porque usa percentis e não depende de uma distribuição específica. Além disso, em comparação com outros métodos quantitativos, o método do percentil é mais confiável.
O gráfico de caixa usa o método IQR para calcular os limites internos. Normalmente, quando queremos usar esse método, ainda usamos boxplots em vez de calcularmos nós mesmos o valor limite. Nos métodos quantitativos deste artigo, este deve ser o nosso método preferido.
5. Use o teste de hipótese para descobrir outliers
Você pode usar o teste de hipótese para descobrir outliers. Existem muitos métodos de teste para outliers, mas vamos nos concentrar em como eles funcionam. Neste artigo, demonstrei o teste de Grubbs, que testa as seguintes hipóteses:
• Hipótese nula: Todos os valores da amostra são retirados de uma única população que segue a mesma distribuição normal.
• Hipótese alternativa: um valor na amostra não é retirado de uma população com a mesma distribuição normal.
Se o valor p desse teste for menor que o nível de significância, você pode rejeitar a hipótese nula e concluir que um dos valores é um outlier.
Usamos um conjunto de dados de amostra para demonstrar esse teste de hipótese. O teste de Grubbs pressupõe que seus dados vêm de uma população de distribuição normal e só podem detectar um outlier. Se você suspeitar que há outros valores discrepantes, outros testes são recomendados.
Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

O teste de outlier de Grubbs produziu um valor p de 0,000. Por ser menor que o nível de significância de 0,05, pode-se concluir que nosso conjunto de dados contém apenas um outlier. A saída acima mostra que é um valor anormalmente alto que encontramos antes.
Se você usar o Grubbs para testar e descobrir outliers, não exclua os outliers, mas analise novamente. Porque esse processo também pode levar à exclusão incorreta de não discrepantes.
O desafio de usar o teste de hipótese de outliers: Quando Masking e Swamping
realizam testes de outliers, é necessário selecionar um programa com base no número de outliers ou especificar o número de outliers a serem testados. O teste de Grubbs pode detectar apenas um outlier. No entanto, outros programas (como o Teste de Tietjen-Moore) exigem que você especifique o número de outliers. Isso é difícil de fazer corretamente! Porque você está realizando testes para descobrir outliers! Mascaramento e Swamping são dois problemas. Quando você especifica um número incorreto de valores discrepantes no conjunto de dados, os seguintes problemas podem ocorrer:
Quando você especifica poucos valores discrepantes, o mascaramento ocorre. A existência de outros valores discrepantes pode afetar o teste, resultando em nenhum valor discrepante no teste. Por exemplo, se um outlier for especificado, mas na verdade houver dois outliers, o teste pode perder esses dois outliers.
Por outro lado, quando você especifica muitos outliers, ocorre inundação. Nesse caso, o teste identifica muitos pontos de dados como outliers. Por exemplo, se dois outliers forem especificados, mas na verdade houver apenas um outlier, o teste poderá pensar que há dois outliers.
Por causa desses problemas, não sou um grande fã de testes discrepantes.
Filosofia pessoal sobre a descoberta de outliers
Como você pode ver, há muitas maneiras de identificar outliers. Minha filosofia é que, ao analisar dados, você deve ter um conhecimento profundo de todas as variáveis. Por exemplo, saiba quais valores são típicos, quais valores são incomuns e quais valores são impossíveis.
Quando você tem esse conhecimento profundo, é melhor usar um método mais direto e visual. Quando o conhecimento relevante está completo, os pontos de dados de outliers potenciais tornam-se claros à primeira vista. Portanto, frequentemente usarei boxplots e classificarei os dados originais! Essas ferramentas simples me forneceram informações suficientes para que eu pudesse encontrar pontos de dados anormais e conduzir investigações adicionais.
Geralmente, eu não uso escores Z e testes de hipótese para descobrir outliers devido à sua complexidade. Usar testes discrepantes pode ser desafiador porque eles geralmente assumem que seus dados seguem uma distribuição normal e também há mascaramento e sobrecarga. Além disso, a presença de outliers torna a pontuação Z menos extrema. A ironia é que esses métodos de identificação de valores discrepantes são, na verdade, muito sensíveis à existência de valores discrepantes! Felizmente, desde que o pesquisador use um método simples para exibir valores incomuns, um analista experiente pode saber quais valores requerem investigação adicional.
Em minha opinião, testes e cálculos estatísticos mais formais são desnecessários porque não podem identificar claramente os outliers. Em última análise, os analistas devem investigar outliers e usar sua experiência para determinar se são pontos de dados razoáveis. Se você não conhece o assunto das estatísticas ou o processo de coleta de dados, você não pode tomar uma decisão final. Não deve ser baseado apenas em observações de testes de hipóteses ou resultados estatísticos.
Na fase de análise, identificamos apenas outliers potenciais para uma investigação mais aprofundada. Este é apenas o primeiro passo para lidar com eles.
No segundo artigo postado hoje, explicaremos o que saber ao investigar valores discrepantes e como isso pode ajudá-lo a decidir se deve removê-los do conjunto de dados. Nem todos os outliers são ruins e alguns não devem ser excluídos. Na verdade, os valores discrepantes podem fornecer uma introdução muito informativa ao assunto e ao processo de coleta de dados. É importante entender como os outliers aparecem e se eles podem reaparecer como uma parte normal do processo ou campo de pesquisa.
Depois de ler este artigo, é altamente recomendável que os estudiosos consultem o segundo artigo "Diretrizes para exclusão e tratamento de outliers em dados" a ser publicado amanhã .
fonte: https://statisticsbyjim.com
Leitura estendida

Em 21 de fevereiro, apresentei dois guias de uso de banco de dados para acadêmicos durante o período epidêmico. Wind Information Financial Terminal Operation Guide e CEIC Database Operation Guide. Consulte "O que são os bancos de dados de Gestão Econômica e Ciências Sociais da Universidade de Tsinghua Peking? Não fique com ciúmes ! ". Em 22 de fevereiro, o "modelo de regressão de Poisson estimado com dois efeitos fixos de alta dimensão" foi introduzido, que incluía regressão de Poisson de painel, regressão binomial negativa de painel, método de função de controle CF, spline cúbico restrito e assim por diante. 27 de fevereiro, referência da "Conclusão recém-revisada de Harvard da obra-prima clássica de inferência causal grátis para download! Dados e código anexados!" E "a endogeneidade mais clara Software operacional detalhado e soluções! Ferramenta essencial de pesquisa empírica!"
Antes, Nosso círculo recomendou alguns bancos de dados (é claro, o banco de dados na comunidade é muito mais do que isso), como segue: 1. Esses 40 micro-bancos de dados são suficientes para o seu doutorado; 2. O banco de dados da empresa industrial chinesa corresponde ao programa completo e correspondente dados de 160 etapas; 3. Dados de luz noturna da cidade no nível da província / prefeitura chinesa; 4. 1997-2014 Versão oficial do índice de mercantilização da China; 5. PM2.5 anual da cidade no nível da prefeitura da China de 1998-2016; 6. Economia econométrica círculo de coleta de banco de dados econômico e social; 7. Dialetos chineses, funcionários, aprovações administrativas e a abertura do banco de dados do governador provincial; 8. Dados de CO2 da China de 2005-2015 por província e indústria; 9. Evolução de dados e questões contemporâneas na pesquisa de comércio internacional; 10. Manuais chineses de microdados comumente usados em pesquisas econômicas.
Anteriormente, nosso grupo recomendou 1. DID usou literatura clássica, licença compulsória: evidências da lei de comércio do inimigo, 2. DID literatura clássica contínua, batatas fizeram a civilização do velho mundo, 3. Dados de seção transversal DID descrição, seção transversal dobrou O paradigma da avaliação de política diferencial, 4. Literatura clássica RDD, teste de robustez e validade do modelo RDD, 5. Método de pesquisa de eventos usado na literatura clássica DID, dados e procedimentos de papel de "regulamentação ambiental", 6. O método DID generalizado é literatura JHE muito clássica , 7. DID's literatura clássica "licença compulsória" dados em papel e do programa, 8. Atividades de MLM sobre desenvolvimento econômico, texto clássico de análise transversal de dados AER, 9. Multi-issue DID literatura clássica dados de grandes bancos ruins e documentos do, 10 Literatura clássica do método de inferência causal IV, é o sistema ou o capital humano que promove o desenvolvimento econômico? , 11. O estabelecimento de causalidade em AER, testes de sensibilidade, análise de heterogeneidade e dados cruzados usam artigos clássicos, 12. O segundo clássico de inferência causal, o impacto da interrupção do trabalho na produtividade subsequente dos trabalhadores? , 13. Density Economics: Natural Experiments from the Berlin Wall, Best Econometrica Papers, 14. Labor and Health Economics com DID e DDD como estratégias de identificação em AER, 15. Um método de avaliação de políticas usando dados transversais, também disponível Enviar AER, 16. Literatura clássica do modelo DID multiperíodo, grandes bancos ruins explicam ",", 17. Dados e arquivos do DID da literatura clássica DID multiperíodo, 18. DID não linear, modelo de dupla transformação CIC, quantil O número de DID é geralmente bem recebido pelos orientadores de doutorado e compartilhado com os alunos sob sua orientação.

Os seguintes artigos com links curtos pertencem a uma coleção. Você pode coletá-los e lê-los ou não os encontrará no futuro.
Em 2,5 anos, quase 1.000 artigos de medição não ponderada no círculo econométrico,

Você pode pesquisar qualquer problema relacionado à medição diretamente na barra de menu da conta oficial,

Círculo Econométrico

Resumo de 5 métodos para encontrar outliers em dados e explicação de exemplo

Acho que você gosta