Resumen sistemático de la teoría y los métodos de aprendizaje automático

escrito en frente: Para el aprendizaje automático y el aprendizaje profundo, es muy importante comprender el principio. Si solo sabe cómo usarlo, solo puede convertirse en un sintonizador y se le preguntará sobre el principio durante la entrevista. Además, para modelar, debes conocer el principio. En general, elegir el aprendizaje automático y el aprendizaje profundo es básicamente investigar. ¿Cómo no conocer el principio al investigar?

Qué pueden hacer el aprendizaje automático y el aprendizaje profundo

传统预测、图像识别、自然语言处理

¿Qué es el aprendizaje automático?

数据→模型→预测
从历史数据中获得规律,这些历史数据是怎样的格式呢?
数据格式:数据集
数据集构成:特征值+目标值

Clasificación de algoritmos de aprendizaje automático

目标值是类别——分类问题
目标值是连续性数据——回归问题
没有目标值——无监督学习

Proceso de desarrollo de aprendizaje automático

1、数据处理
2、特征工程(将数据处理成更能被机器学习算法使用的数据)
3、算法训练——得到模型
4、模型评估

Marcos y materiales de aprendizaje

1、算法是核心,数据和计算是基础
2、找准定位
3、怎么做?
    1、书籍:
       机器学习—周志华“西瓜书”
       统计学习算法—李航
       深度学习“花书”
    2、库和框架
    机器学习框架:scikit-learn
    深度学习框架:pytorch  tensorflow  theano  caffe2  chainer

conjunto de datos

Conjuntos de datos disponibles para la fase de aprendizaje

  1、scikit-learn
  2、kaggle
  3、UCI

Introducción a la biblioteca scikit-learn:

  Python语言的机器学习工具
  包括许多知名的机器学习算法的实现
  文档完善、容易上手、丰富的API
  目前稳定版本0.24.1
  安装:pip3 install Scikit-learn==0.24.1
  查看是否安装成功:import sklearn
  注:安装需要numpy、scipy等库
  sklearn包含的内容:分类、回归、聚类、降维、模型选择、特征工程

uso del conjunto de datos de sklearn

  sklearn.datasets
      load_*     获取小规模数据集
      fetch_*    获取大规模数据集

El código para ver el conjunto de datos es el siguiente:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
    """
    sklearn数据集使用
    """
    #获取数据集
    iris=load_iris()
    print("鸢尾花数据集:\n",iris)
    print("查看数据集描述:\n",iris["DESCR"])
    print("查看特征值的名字:\n",iris.feature_names)
    print("查看特征值:\n",iris.data,iris.data.shape)

    #数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    #查看测试集的特征值
    print("测试集的特征值:\n",x_test,x_test.shape)

    return None
if __name__=="__main__":
    datasets_demo()

ingeniería de funciones

Está ampliamente difundido en la industria que los datos y las características determinan el límite superior del aprendizaje automático, y los modelos y algoritmos solo se acercan a este límite superior.
La ingeniería de funciones es el proceso de utilizar conocimientos y habilidades profesionales para procesar datos, de modo que las funciones puedan desempeñar un mejor papel en los algoritmos de aprendizaje automático. Afectará directamente el efecto del aprendizaje automático.

Cómo hacer ingeniería de características

sklearn——
pandas de ingeniería de características——limpieza de datos, procesamiento de datos

La ingeniería de características incluye:

 1、特征抽取/提取
机器学习算法——统计方法——数学公式
(数学公式无法识别字符串)
文本类型转换为→数值
类型转换为→数值
图像特征提取(深度学习)

API de extracción de funciones:

   sklearn.feature_extraction
2、特征预处理
   归一化、标准化
   归一化缺点:计算公式主要依靠最大值和最小值,一旦出现异常值,将对整个数据有很大影响
   标准化:通过对原始数据进行变换,将数据变换到均值为0,标准差为1范围内:
   公式:

inserte la descripción de la imagen aquí

 3、数据降维   
 ndarray
    维数:嵌套的层数
    0维:标量
    1维:向量
    2维:矩阵
    3维:多个2维数组嵌套而成
    n维......
    降维:降低的对象是2维数组,此处的降维是降低特征的个数(列数)。得到一组不相关主变量的过程。
    特征与特征之间不想关。
    降维方法两种:
    1、特征选择
    2、主成分分析
    API:sklearn.decomposition.PCA(n_components=None)
    n_components  是小数:表示保留百分之多少的信息。整数:表示减少到多少特征

Estructura del árbol de decisión
: idea de estructura if-else
: cómo tomar decisiones de manera eficiente. El énfasis está en la secuencia de características.
(En comparación con el algoritmo KNN, el árbol de decisión es más adecuado para situaciones con una gran cantidad de datos)
Ventajas: Visualización, gran capacidad de interpretación
Desventajas: Fácil de adaptar

Random Forest
¿Qué es un método de aprendizaje conjunto ? Resuelva un solo problema de predicción mediante la construcción de una combinación de varios modelos. Genere múltiples clasificadores, aprenda y haga predicciones de forma independiente, y finalmente combínelos en una predicción combinada, por lo que es mejor que cualquier predicción hecha por una sola clasificación.
Random Forest: un clasificador que consta de múltiples árboles de decisión. El resultado final está determinado por la moda de los árboles de decisión múltiple.
Aleatorio: conjunto de entrenamiento aleatorio y función aleatoria
Conjunto de entrenamiento aleatorio: bootstrap (aleatorio con muestreo de reemplazo)

Fenómeno de regresión lineal
: subajuste y sobreajuste
Deben distinguirse las relaciones lineales y los modelos lineales.
Objetivo: encontrar parámetros del modelo para hacer predicciones precisas.

Función
de pérdida Pérdida de optimización: Método de optimización:
Ecuación normal: Genio, solución directa (adecuada para un volumen de datos pequeño)
Descenso de gradiente: Diligente, prueba y error, mejora (mayor versatilidad)

Caso: Predicción del precio de la vivienda en Boston:
1) Adquirir conjunto de datos
2) Dividir conjunto de datos
3) Ingeniería de características: adimensional (estandarización)
4) Ingeniería de estimación: ajuste()–modelo
coef_intercept_
5) Evaluación del modelo

Underfitting y Overfitting

**Inadecuación: **Las características aprendidas son muy pocas, lo que da como resultado criterios de distinción demasiado aproximados para identificarlos correctamente. (Tanto el conjunto de entrenamiento como el conjunto de prueba no pueden ajustarse bien a los datos, y la cantidad de datos es demasiado pequeña)
**Sobreajuste: **Hay demasiadas funciones aprendidas, lo que lleva a descartar algunas funciones, lo que hace que los resultados sean inexactos. (Funciona bien en el conjunto de entrenamiento, pero no en el conjunto de prueba)
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
Solución:
inserte la descripción de la imagen aquí
el de la izquierda es demasiado simple y fácil de ajustar, el efecto de ajuste de la derecha es muy preciso peromala capacidad de generalización, fácil de sobreajustar, por lo que el efecto medio es el mejor.
Solución de sobreequipamiento:regularización: Minimice la influencia de las características de los términos de orden superior.
Regularización L1: función de pérdida +λ plazo de penalización(Valor absoluto del parámetro) ——— Regularización LASSO
L2: Hace que algunos parámetros estén cerca de 0, debilitando la influencia de ciertas características. funcion de perdida +λ plazo de penalización(el cuadrado del parámetro) ————— Cresta—regresión de cresta

Regresión de cresta - regresión lineal con regularización L2
Regresión logística - para clasificación (es un algoritmo de clasificación,Dos categorías)
La salida de la regresión lineal es la entrada de la regresión logística.
Esquema:
inserte la descripción de la imagen aquí
método de evaluación para la clasificación: precisión y recuperación

Supongo que te gusta

Origin blog.csdn.net/weixin_51610638/article/details/120655308
Recomendado
Clasificación