Não tenha vergonha! Muitas pessoas são na verdade apenas pseudo-cientistas de dados

O texto completo possui 3862 palavras e o tempo estimado de aprendizado é de 13 minutos

Fonte: unsplash

Antes de tudo, não estou humilhando o cientista de dados autodidata e aspirante, mas acho que esse campo é particularmente adequado para um auto-estudo apaixonado.

Mas você deve admitir que as pessoas que afirmam ser especialistas depois de fazer um curso on-line, mas não têm conhecimento (ou não estão interessadas) nas teorias básicas em campo, devem ser derrotadas.

Como a profissão mais bem paga e sexy do século 21, os cientistas de dados são procurados por mais e mais pessoas. Hoje, parece compreensível que mesmo as pessoas que não são relacionadas à indústria estejam se promovendo como cientistas de dados. No entanto, há um grupo de pessoas "na moda" que têm pouca experiência prática e algumas nem têm base teórica, mas trapaceiam em uma empresa, o que é um pouco excessivo.

Na experiência de entrevistar ou cooperar com cientistas de dados existentes ou potenciais, o autor descobriu alguns detalhes que podem distinguir cientistas de dados talentosos e chamativos.

O autor compilou uma lista para distinguir essas pessoas.Esta lista é útil para contratar gerentes para selecionar pessoal; você também pode usá-la para auto-exame. Se houver essas deficiências, você deve corrigi-las rapidamente antes de se tornarem chamativas.

Não se preocupe em explorar os dados

A exploração de dados é o primeiro passo em todos os projetos de aprendizado de máquina. Se você não gastar tempo se familiarizando com os dados e suas características, a árvore de decisão errada perderá muito tempo antes que o produto final seja produzido.

Sem visualização de dados

A melhor maneira de iniciar qualquer projeto relacionado a dados é explorar a visualização de dados. Se o leitor estiver praticando aprendizado de máquina, é provável que processe uma grande quantidade de dados de alta dimensão; ler .csv no Excel ou usar a função df.describe () não é uma alternativa de visualização de dados adequada.

Francis Anscombe explicou a importância da visualização de dados com um quarteto famoso:

Anscombe Quartet

O conjunto de dados em cada painel possui basicamente as mesmas estatísticas de resumo: a média xey, a variação da amostra xey, o coeficiente de correlação, o valor do quadrado R e a linha de melhor ajuste são (quase) os mesmos. Se você não visualizar os dados, mas confiar em estatísticas resumidas, poderá pensar que os quatro conjuntos de dados têm a mesma distribuição, mas, à primeira vista, obviamente não é esse o caso.

A visualização de dados permite a identificação de tendências, artefatos, outliers e distribuições nos dados; se você pular esta etapa, é claro que também poderá tocar cegamente no restante do projeto.

Sem limpeza de dados

O que acontece se os dados estiverem confusos? Erro numérico de entrada; erro de conversão; desordem do sensor. É importante resolver esses problemas antes de perder meses em um projeto sem futuro. É especialmente crítico resolver esses problemas antes que o modelo seja colocado em produção. Lembre-se: o lixo de entrada produzirá lixo.

Fonte: unsplash

Existem muitas maneiras boas de identificar problemas nos dados, mas não há uma boa maneira de identificar todos os problemas. A visualização de dados é um bom ponto de partida, embora esse seja um processo manual bastante complicado, as recompensas são bastante ricas.

Outros métodos incluem detecção automática de outlier e estatísticas de resumo de condições. Por exemplo, um histograma da altura humana:

Histograma de altura para adulto

O uso desses dados para treinar o modelo sem dúvida levará a resultados muito ruins. Mas, verificando os dados, você pode descobrir que o valor anormal de 100 está em metros, e não em centímetros. Isso pode ser corrigido multiplicando esses valores por 100.

A limpeza correta dos dados não apenas impede que o modelo seja treinado em dados incorretos, mas também pode salvar 100 pontos de dados que podem ter sido descartados. Se os dados não puderem ser limpos corretamente, é melhor deixar o dinheiro em cima da mesa ou criar um modelo com defeito.

Não precisa se preocupar com a seleção e design de recursos

O mais bacana das redes neurais é que você pode inserir todos os dados originais diretamente e aprenderá alguns valores aproximados da função objetivo. De fato, este é o pior ponto.

Isso é realmente conveniente, mas é ineficiente e propenso ao colapso. O pior cenário é que isso faz com que os cientistas de dados iniciantes confiem no aprendizado profundo, fazendo com que sua tecnologia continue a declinar e, em geral, métodos mais tradicionais de aprendizado de máquina são mais apropriados. Embora não exista um método “correto” para seleção e design de recursos, há vários resultados importantes que precisam ser trabalhados:

· Formatação de dados: o computador está com morte cerebral. Os dados precisam ser convertidos para um formato que o modelo entenda facilmente: redes neurais, como números entre -1 e 1; dados categóricos devem ser uma codificação hot-hot; dados sequenciados (provavelmente) não devem ser representados como um único campo de ponto flutuante A conversão logarítmica de dados distribuídos exponencialmente pode ser benéfica. Pode-se dizer que existem muitas nuances que dependem do modelo no formato de dados.

· Redução de dimensionalidade: mais dados não significa melhor. Geralmente, antes de ajustar o modelo, o número de recursos precisa ser reduzido. Isso geralmente envolve a exclusão de dados irrelevantes e redundantes ou a combinação de vários campos relacionados em um campo.

· Criar funções específicas do domínio: criar suas próprias funções com base em dados geralmente é eficiente. Se você tiver dados de contagem, pode ser necessário convertê-los em um limite binário relevante, como "≥100" versus "<100" ou "Sim 0" versus "Não 0". Se você tiver dados contínuos x e z, pode ser necessário incluir x², xz e z² além de x e z no conjunto de recursos. Essa é uma prática altamente dependente do problema, mas, se tratada bem, pode melhorar bastante o desempenho do modelo de um determinado tipo de modelo.

Muitos leigos pensam que o aprendizado de máquina é uma caixa preta e, magicamente, extrai resultados de dados brutos, o que não é o caso.

：源: picografia

Não escolheu o tipo de modelo apropriado

O aprendizado de máquina tem uma longa história e, durante a maior parte desse período, foi chamado de "aprendizado estatístico".

Com o advento de ferramentas de aprendizado de máquina de código aberto fáceis de usar, como o Scikit Learn e o TensorFlow, juntamente com a grande quantidade de dados coletados e computadores onipresentes de alta velocidade, nunca foi tão fácil experimentar diferentes tipos de modelos de aprendizado de máquina.

No entanto, não é por acaso que os profissionais de aprendizado de máquina não precisam mais entender como funcionam os diferentes tipos de modelos, o que também leva à sua incapacidade de entender como os diferentes tipos de modelos funcionam.

Tente de tudo

O repositório do GitHub é preenchido com uma combinação de projetos Kaggle e cursos on-line, da seguinte maneira:

from sklearn import *
for m in [SGDClassifier, LogisticRegression, KNeighborsClassifier, 
             KMeans,KNeighborsClassifier, RandomForestClassifier]:
    m.overfit(X_train, y_train)

Isso é obviamente ininteligível, mas muitos cursos on-line recomendam esse programa, o que é realmente vergonhoso.

Isso é perda de tempo e é fácil induzir as pessoas a escolherem um tipo de modelo inadequado, porque funciona bem nos dados de verificação. (Lembre-se de manter um conjunto de verificação, certo?)

O tipo de modelo usado deve basear-se em dados básicos e necessidades de aplicativos, e os dados devem ser projetados para corresponder ao modelo selecionado. A escolha do tipo de modelo é uma parte importante do processo de ciência de dados. Pode fazer sentido comparar diretamente uma certa quantidade de modelos adequados, mas a exaustão cega de encontrar o modelo do "melhor número" é uma bandeira vermelha.

Fonte: unsplash

Na verdade, não entendo como os diferentes tipos de modelo funcionam

Se eu inserir "idade do veículo em anos" e "quilômetros percorridos", por que o classificador KNN (algoritmo do vizinho mais próximo) não funciona bem? O que há de errado em usar a regressão linear para prever o crescimento populacional global? Por que o algoritmo de classificação de floresta aleatória não é adequado para conjuntos de dados com 1000 categorias de variáveis codificadas um a quente?

Se você não pode responder a essas perguntas, não importa! Existem muitos bons recursos para aprender como essas tecnologias funcionam; antes de se candidatar a um emprego nessa área, leia e entenda.

Mas o maior problema não é que as pessoas não entendam como isso funciona, mas não se importam e não estão interessadas nos princípios subjacentes!

Se você gosta de aprendizado de máquina, mas não gosta de princípios, não gosta muito de aprendizado de máquina; essas pessoas são obcecadas pelos conceitos em que acreditam. Se você não deseja entender como os modelos funcionam ou são adequados para dados, quando inevitavelmente derem errado, a solução de problemas não será possível.

Não sei se quero precisão ou interpretabilidade, ou por que tenho que escolher

Fonte: unsplash

Todos os modelos têm seus prós e contras. No aprendizado de máquina, uma escolha importante é a troca entre precisão e interpretabilidade.

Um modelo pode prever mal, mas é fácil de entender e pode explicar o processo com eficiência; também pode ser muito preciso, mas o funcionamento interno é um mistério ou um compromisso pode ser escolhido.

Qual tipo de modelo a ser escolhido deve ser decidido de acordo com os dois acima.

Se o objetivo é modelar dados e obter informações acionáveis, é óbvio que um modelo interpretável deve ser escolhido, como uma árvore de decisão ou regressão linear. Se aplicado a previsões em nível de produção, como anotações de imagem, a interpretabilidade fica em segundo lugar, e florestas aleatórias ou redes neurais podem ser mais apropriadas.

Na experiência do autor, os cientistas de dados que não entendem essa troca e aqueles que nem sequer consideram por que a interpretabilidade é importante e buscam diretamente a precisão não são adequados para modelos de treinamento.

Fonte: unsplash

Falha no uso de medidas e controles eficazes

Apesar de representar 50% das palavras e 64% das letras, a palavra "ciência" na ciência de dados é frequentemente ignorada.

Não é incomum que cientistas chamativos de dados apliquem cegamente um único indicador como uma avaliação de modelo em condições ideais. As partes interessadas não informadas são facilmente tentadas por afirmações ousadas, como "90% de precisão". Embora essas afirmações sejam tecnicamente corretas, elas são extremamente inadequadas na missão atual.

Não estabeleceu um modelo de linha de base

O autor tem um teste de câncer de pâncreas com uma taxa de precisão superior a 99%. Inacreditável? Mas isso é verdade, clique no link para tentar: https://upload.wikimedia.org/wikipedia/commons/3/31/ProhibitionSign2.svg

Se você vir um círculo vermelho com uma linha, o resultado do teste é negativo. Se você vir uma marca de seleção verde, estará mentindo.

O fato é que 99% das pessoas não têm câncer de pâncreas (na verdade, uma proporção maior, mas, por uma questão de explicação, presume-se que seja 99%), então o pequeno "teste" estúpido do autor é preciso em 99% das vezes.

Portanto, se estamos preocupados com a precisão, qualquer modelo de aprendizado de máquina usado para diagnosticar câncer de pâncreas deve ser pelo menos tão bom quanto esse modelo de base não informativo. Se o jovem bonitão que veio para o trabalho afirmar que desenvolveu uma ferramenta com uma taxa de precisão de 95%, compare-a com um modelo de referência, certifique-se de que seu modelo tenha um desempenho melhor que a probabilidade.

Use a métrica errada

Fonte: unsplash

Seguindo o exemplo de diagnóstico acima, é importante garantir as medições corretas.

Para o diagnóstico de câncer, a precisão é realmente um mau indicador; geralmente é preferível reduzir a precisão se isso significa maior sensibilidade. Qual é o custo dos falsos positivos? Pressão do paciente e perda de tempo e recursos. Qual é o custo dos falsos negativos? Morte.

Conhecer o significado real do modelo e entender como esses significados controlam as opções de métricas pode espiar claramente os cientistas de dados reais a partir dos scripts das pessoas.

Estragou a linha de treinamento / teste

Este é um grande problema e muito comum. Testar um modelo corretamente é absolutamente necessário para o processo de ciência de dados.

Existem muitas possibilidades de erros: não entenda a diferença entre os dados de verificação e teste, execute a expansão dos dados antes da divisão, não impeça o vazamento de dados, ignore completamente a divisão de dados ... Além disso, se você não souber Não importa como criar um conjunto durável adequado, todo o trabalho é uma perda de tempo.

... importar Tensorflow como tf

O exposto acima é apenas para identificar um pequeno grupo de pessoas nesse setor. Desde que sejam experientes, é fácil descobrir esses cientistas de pseudo dados. Mas se você está apenas começando a praticar, pode ser difícil distinguir o professor de IA vermelho online SirajRavals de Wu Enda.

Se você acha que algum dos exemplos acima é conotação para você, isso é uma coisa boa, porque significa que você se preocupa em fazer bem as coisas. Continue aprendendo, continue subindo, não se incomode com essas pessoas que fingem.

Deixe um comentário

Vamos compartilhar juntos os bens secos do aprendizado e desenvolvimento da IA.Bem-
vindo à plataforma completa de auto-mídia vertical da AI "técnica do núcleo da leitura"

(Adicione o editor WeChat: dxsxbb, junte-se ao círculo de leitores e discuta a mais nova tecnologia de inteligência artificial juntos ~)

Leitura do núcleo

1031 artigos originais publicados · Gosto 3012 · Visitas: 680.000+

Seus placa de mensagem preocupações