notas de aprendizaje estadístico

directorio

1 Introducción a los métodos de aprendizaje estadístico

2 Perceptrón

3 k-vecino más cercano

4 método Bayes Naive

5 --ID3 árbol de decisión, C4.5, CART

6 modelo de regresión logística con la máxima entropía

7 SVM - minimización de la secuencia de SMO

8 método de actualización --AdaBoost, levantando el árbol (clasificación, regresión), gradiente impulsar árbol (GBDT)


1 Introducción a los métodos de aprendizaje estadístico

El aprendizaje supervisado: clasificación, regresión, el etiquetado; sin supervisión: el agrupamiento

pérdida de función común: la pérdida de la función 0-1, función de pérdida cuadrática, función de pérdida absoluta, la pérdida de la función logarítmica.

Regularización: La experiencia es el riesgo de error en el conjunto de entrenamiento, el riesgo estructura del modelo es el riesgo de uso indebido (exceso de ajuste, usando la regularización). L1 positivo o norma L2 del vector parámetro.

La validación cruzada: la sencilla validación cruzada (formación 70%, 30 de prueba); S veces la validación cruzada (datos en grupos S, S-1 conjuntos de formación, dejando un conjunto de pruebas seleccionados de entre el Grupo S error en la prueba modelo mínimo); licencia de una validación cruzada (S-veces la validación cruzada S = N, es decir, N-1 de datos de entrenamiento, datos de prueba que salen a), en el caso de la falta de datos.

Categoría evaluación: precisión de la clasificación general, para dicotómica Generalmente se usa la precisión y recordar relación P R. P = TP / (TP + FP), R = TP / (TP + FN). P es una cantidad positiva predijo clase positiva en la clase (la clase se predice negativo positivo clase + clase positivo se predice clase positivo) relación es positiva en todas las clases en la predicción. R es n-tipo de importe de tipo n en el predicho (n clase + Clase se predijo negativo positivo Tipo de clase positivo predicho) es la relación de la clase real n se recuerda.

Armónica valor F1 media, 2 / F1 = 1 / P + 1 / R, es decir, F1 = 2PR / (P + R), un P y R son altos, F1 será alto.

2 Perceptrón

Linear modelo de clasificación, signo (w * x + b), n es mayor que 0 clase 0 es menos de un tipo negativo. wx + b = 0 a un hiperplano que separa, w es el vector normal, b es la intersección.

La función de coste: punto de clasificación errónea a distancia hiperplano

Algoritmo: método A de descenso de gradiente estocástico, cada vez que la selección de un punto de descenso de gradiente

Cuando el conjunto de datos de separable linealmente, una cierta convergencia.

3 k-vecino más cercano

Algoritmo: Calcular el vector de distancia una de la muestra de entrada, para seleccionar las k muestras más recientes, donde el mayor número de decisiones de clasificación de clase, tales

k-vecino más cercano método no muestra el proceso de aprendizaje. Cuando el conjunto de entrenamiento se determina, el método de medición de distancia, el valor de k, las reglas de decisión de clasificación (por ejemplo, un voto de la mayoría), para cualquier entrada se determina de forma única una nueva instancia de la clase a la que pertenece.

métrica de distancia Lp, p toma típicamente 2. Para mejorar la eficiencia de la búsqueda del vecino k-más cercana, puede utilizar el método del árbol kd. 1- formación Conjunto del árbol de equilibrado primera configurado; 2- búsqueda

4 método Bayes Naive

probabilidad previa, se refiere a todos los datos conocidos, en el que el cálculo de probabilidades, la probabilidad es conocido en el conjunto de entrenamiento.

probabilidad posterior, medios de entrada conocidos, cada probabilidad de salida de adivinar, el ser probabilidad derivados probado

Estimación de máxima verosimilitud: calcular la probabilidad de cada uno, puede haber una probabilidad cero.

estimación bayesiana Naive: Cuando se calcula el original basado en probabilidades a priori, la adición de moléculas de lambda, el denominador se añadió K * lambda; en el cálculo de las probabilidades condicionales, junto con lambda molecular, además de la Sj denominador * lambda, Sj cada característica posibles valores j tienen un Sj

algoritmo:

1> probabilidades calculadas a priori, la probabilidad de cada clase en el conjunto de entrenamiento; cálculo de una probabilidad condicional de cada característica j en cada clase k en cada uno de los valores posibles de la ají probabilidad.

2> probabilidad estos pueden ocurrir posiblemente en cada clase k para una característica dada se calcula. Debido a que la suposición iid entre las características de modo que la probabilidad multiplicando

3> Seleccione la máxima probabilidad posterior de clase.

5 --ID3 árbol de decisión, C4.5, CART

Árbol de decisiones: la selección de características, genera árboles de decisión, poda de árboles

Selección de características : el conjunto de datos de entrada y en el que A, características óptimas de salida

  1. Se calcula la entropía experiencia conjunto de datos: el nivel de experiencia del conjunto de datos de entropía incertidumbre, establecer la clasificación de datos
  2. Una experiencia cálculo de la función de entropía condicional del conjunto de datos: una característica dada, la clasificación basada en la función, la entropía condicional experiencia en este caso la informática. Condiciones entropía fórmula de cálculo: en las condiciones dadas se define como X, la entropía de la distribución de probabilidad Y de las condiciones deseadas para X en. Se interpreta en el conjunto de datos: un hecho típico, y calcular la probabilidad de que un subconjunto de los subconjuntos de anuncios A, esta probabilidad se utiliza para calcular las condiciones esperadas de A; y luego para cada subconjunto, el subconjunto que clasifica calcula la entropía (número de diversos tipos de moléculas, el denominador es el número de subconjuntos, es decir, dada una, clasificación distribución de entropía condicional de probabilidad). En general, con la primera clasificación de elementos, la sub clasificada centraliza el cálculo de la entropía condicional, entonces los resultados de clasificación (probabilidad) de la búsqueda de una entropía condicional deseado.
  3. Al cómputo de la información

Árbol de decisión : ID3 utiliza ganancia de información, el uso C4.5 de la relación de ganancia de información

poda de árboles :

| T | es el número de nodos hoja, Nt es el número de puntos en el nodo hoja muestra, Ht experimentar nodos hoja de entropía. Si después de la retracción de la nodo hoja correspondiente a la función disminuye la pérdida de nodo padre, la poda. Hasta que no se poda, obtener la función de pérdida mínima subárbol

algoritmo CART: Un árbol de decisión es un árbol binario, árbol de regresión con el criterio de minimización del error cuadrático, clasificación minimización árbol utilizando el índice de Gini.

6 modelo de regresión logística con la máxima entropía

Regresión logística: binomial de regresión logística p (y = 1 | x) = exp (wx) / (1 + exp (wx)), p (y = 0 | x) = 1 / (1 + exp (wx)) se puede extender a múltiples clasificación

registro logarítmico de probabilidad (p / (1-p)) = wx lineal. función de probabilidad logarítmica L (w) = sigma (ylog (hx) + 1-y) log ((1-hx)), hx = exp (1 + exp (wx))

7 SVM - minimización de la secuencia de SMO

máquina de vectores de soporte separable linealmente

Linealmente separables algoritmo dual:

Linealmente inseparable : la adición de una variable de holgura

No lineales Máquinas de Vectores Soporte: Uso de la función del núcleo, se calcula la similitud rasgo original

algoritmo de minimización secuencia de SMO

8 método de actualización --AdaBoost, levantando el árbol (clasificación, regresión), gradiente impulsar árbol (GBDT)

AdaBoost (Adaptive Impulsar):

1> conjunto de inicialización de distribución de datos D

2> clasificador de formación de datos para obtener G (x)

    - Cálculo en el conjunto de entrenamiento e_m un error de clasificación

    - El cálculo de este error pesos clasificador alpha_m

    - Actualización del conjunto de datos de distribución D

3> después de M veces, el clasificador final es una combinación lineal de las sub-clasificadores

Impulsar árbol: dos de clasificación, regresión

algoritmo de árbol de clasificación binaria para mejorar el clasificador básico AdaBoost puede utilizar árbol de clasificación de segunda clase.

Para aumentar los problemas de regresión árbol, el algoritmo es el siguiente:

1> f0 = 0 Inicialización

2> para aprender un árbol de regresión

3> se calculan para cada residuales de datos de entrenamiento, seguir aprendiendo a través de los residuos de árboles de regresión

Gradiente de impulsar el árbol GBDT (gradiente sobre Intensificación Decisión árbol):

Para una función de pérdida general, en el que el gradiente negativo residual.

 

 

 

 

 

Publicado 46 artículos originales · ganado elogios 0 · Vistas 1041

Supongo que te gusta

Origin blog.csdn.net/weixin_37680513/article/details/102969975
Recomendado
Clasificación