Aprendizado de máquina com scikitlearn em Python na prática

Autor: Zen e a arte da programação de computadores

1. Introdução

scikit-learn (abreviadamente sklearn) é uma biblioteca de aprendizado de máquina Python de código aberto que implementa muitos modelos comuns de aprendizado de máquina. Ele fornece uma interface API fácil de usar e pode ser usado para processamento de texto, extração de recursos, classificação, regressão e outras tarefas. Este artigo apresenta a biblioteca scikit-learn através de dois aspectos: a primeira parte introduz brevemente conceitos relacionados; a segunda parte começa com o modelo de algoritmo mais básico (regressão linear, máquina de vetores de suporte, árvore de decisão, K-vizinho mais próximo) e analisa em detalhe O princípio de implementação de cada modelo e como chamá-lo no scikit-learn. Combinado com casos de aplicação práticos, ele apresenta como usar o scikit-learn para construir rapidamente modelos de aprendizado de máquina para facilitar trabalhos ou pesquisas futuras. Finalmente, também inclui alguns aplicativos avançados e introduções de ferramentas. Espero que este artigo possa ajudar os leitores a compreender e dominar o uso de bibliotecas de aprendizado de máquina baseadas no scikit-learn.

2. Conhecimento preliminar

2.1 Definição de Aprendizado de Máquina

O aprendizado de máquina refere-se a uma disciplina que permite aos computadores analisar automaticamente padrões, leis e estruturas a partir de dados. O seu objetivo é permitir que os sistemas de máquinas aprendam e melhorem o desempenho de uma forma natural, em vez de dependerem de regras concebidas artificialmente. Este campo envolve uma ampla gama de teorias e métodos matemáticos, incluindo teoria das probabilidades, estatística, algoritmos de otimização, teoria da informação, análise convexa, teoria dos jogos, etc.

2.2 Termos básicos

Existem muitos termos importantes no aprendizado de máquina, como recursos, rótulos, conjunto de treinamento, conjunto de testes, algoritmo, hiperparâmetro, modelo, função de custo, função de perda, etc. Abaixo explicamos cada um desses termos um por um. ①Recursos: Os dados de entrada para aprendizado de máquina geralmente são representados como um vetor ou matriz de recursos e também podem incluir parte dos dados originais, como valores de pixel em uma imagem. Um vetor ou matriz de recursos pode ser usado para representar uma amostra ou um conjunto de treinamento. ②Rótulo: Um modelo de aprendizado de máquina bem treinado não só precisa obter recursos como entrada, mas também aprender o rótulo ou valor de saída, ou seja, o resultado desejado. De modo geral, os rótulos podem ser variáveis ​​contínuas ou variáveis ​​discretas, como "bom" ou "ruim" em problemas de classificaçãoÿ

おすすめ

転載: blog.csdn.net/universsky2015/article/details/132706212