[Notas de aprendizaje automático] en el que (la función) y la selección de características (Feature Selección)

Característica (la función) y la selección de características (Feature Selección)

Explicar el concepto

En el aprendizaje de máquina, la propiedad se denomina "función (funciones)", las tareas de aprendizaje actuales propiedades útiles conocen como "características relevantes (característica relevante)", sin el uso de la propiedad denominada "características irrelevantes (Característica irrelevante)". Selección de un conjunto dado de características de procesos relacionados con el subconjunto de función, denominada "selección de características (Selección de características)"

La selección de características es un importante los datos pre-procesamiento. En el aprendizaje de las máquinas actuales, los datos se obtienen generalmente después de la primera selección de características, después de lo cual el alumno la formación.

de proceso de selección debe garantizar que no se pierdan las características importantes, o seguir el proceso de aprendizaje debido a la falta de información importante y no se puede obtener un buen rendimiento. Un conjunto de datos dado, si las diferentes tareas de aprendizaje, las características asociadas probablemente será diferente.

Además, hay una característica llamada "clase características redundantes (función redundante)", la información que contienen deducen de otras características. A continuación, se quitan características redundantes reducir la carga sobre el proceso de aprendizaje.


En el que el objeto seleccionado

En la aplicación práctica de aprendizaje de máquina, el número de características con más frecuencia, que puede no estar relacionada con la presencia de características, puede haber interdependencias entre las características, fácil de llevar a las siguientes consecuencias:

  • Cuanto mayor sea el número de funciones, funciones de análisis, mayor será el tiempo necesario para entrenar el modelo.
  • Cuanto mayor sea el número de características, fácil de llevar a "la maldición de la dimensionalidad" modelo será más complejo, su capacidad para promover la caída.

La selección de características puede eliminar no es relevante (irrelevante) o característica Kang I (redundante) y por lo tanto para disminuir el número de características para mejorar la precisión del modelo, el propósito de reducir el tiempo de funcionamiento. Por otro lado, seleccionar las características relevantes del modelo real se simplifica a los investigadores a datos de proceso generados de fácil comprensión.

La selección principal característica tiene dos propósitos :

  • La reducción del número de características, reducción de la dimensión, para evitar la maldición de la dimensionalidad, por lo modelo maquillaje generalización más fuerte, reduciendo exceso de montaje, formación modelo de tiempo se acortan.
  • Una mejor comprensión de las características y valores de características entre

proceso de selección de características

  1. proceso de generación (Procedimiento generación): es un proceso de generación de un subconjunto función de búsqueda se encarga de la función de evaluación proporciona un subconjunto de características.
  2. función de evaluación (función de evaluación): función de evaluación es evaluar qué tan bien una característica de un subconjunto del criterio.
  3. Criterio de parada (criterio de parada): criterio de parada se asocia con la función de evaluación, por lo general es un valor umbral, el valor de la función de evaluación cuando este umbral se alcanza la búsqueda se puede detener.
  4. Proceso de verificación (Validación Procedimiento): Validar subconjunto elegido de características en el conjunto de datos de validación.

El método de selección de características

Según una forma característica seleccionada característica método de selección se divide en tres categorías:

. 1) El filtro de : filtración, de acuerdo con la divergencia o relevancia de la respectiva puntuación de las características, un umbral o un número de umbral para ser seleccionados, la función seleccionada. Caracterizado en un proceso de selección posterior es independiente de aprendizaje, una primera característica por el proceso de selección de características es un "filtro", y luego después de la formación modelo de características de filtración. Los valores de correlación están ordenadas

2) la envoltura : el método de embalaje, para ser utilizado de acuerdo con la puntuación de rendimiento de aprendizaje, en el que cada uno seleccione un número, o un número de características negativas. Embalaje característica objeto Ley se selecciona para un subconjunto dado de aprendizaje característica "a medida". búsqueda codiciosa o exhaustiva

. 3) Embedded : incrustación, una función de selección incorporado es proceso de formación de selección de características automática en el alumno . Ordenar coeficiente de peso de peso característico

1 donde ninguna formación, algunas de las cuales pueden reflejar cálculo directo de valores de correlación puede ser ordenada, 2, y 3 necesidad para entrenar el modelo, y el modelo de formación requieren múltiples 2; 1 y 2 son característicos de proceso de formación separada proceso de selección aprendiz, 3 se combinó, se lleva a cabo de forma automática en el proceso de aprendizaje de la función de selección de entrenamiento.


Seleccionar Forward (Adelante Selección) y la eliminación hacia atrás (Eliminación hacia atrás)

Selección Selección hacia adelante hacia atrás y durante la selección de características

Si desea eliminar la función seleccionada contiene un subconjunto de toda la información importante, si no hay un campo del conocimiento como hipótesis, luego tuvo que recorrer todos los posibles subconjuntos de características de la colección original. método factible es producir un "subconjunto candidato" de la evaluación que es bueno o malo en base al siguiente resultado de la evaluación es un subconjunto del candidato, entonces su evaluación, ......, este proceso continúa hasta que no pueda encontrar una mejor característica subconjunto hasta ahora. Por lo tanto, la forma de obtener el siguiente subconjunto candidato en base a los resultados de la evaluación? ¿Cómo evaluar la calidad de la característica subconjunto candidato?

Se trata de una estrategia de búsqueda. Por lo que habrá:

  • Seleccionar Forward (Adelante Selección)
  • Después de la eliminación de (Eliminación hacia atrás)
  • Búsqueda bidireccional (bidireccional Selección)
  • paso a paso

Eliminación hacia atrás, hacia adelante paso a paso para selección y método de selección de tres característica se utiliza a menudo.

Cuando el número de veces demasiadas características, podemos en la reducción de dimensión además por PCA y otros métodos, también puede utilizar el método de selección de características de la detección de unos pocos característica influyente (función) con los resultados, por lo que el impacto sobre los resultados no es el caso, reducir la cantidad de cálculo.

Método de eliminación hacia atrás es muy simple:

En primer lugar contiene toda la función, entonces cada función está intentando eliminar, eliminar la prueba que tiene la característica más grande para mejorar la exactitud del modelo, el modelo finalmente borra el ascensor más alto una característica. Y así sucesivamente, hasta que elimine la función no mejora el modelo hasta ahora.

Selección hacia adelante es exactamente lo contrario, añadido a la lista uno por uno.

Con respecto a la selección adelante, atrás ventaja eliminación es que permite que algunas de las características de la baja contribución al modelo para poder entrar (y, a veces la baja contribución de la característica de tener combinación de mayor valor de aportación, esto ignora la Selección hacia adelante la posibilidad de una combinación de especies), y por lo tanto pueden evitar la interferencia Backward uno Eliminación o dos características dominantes.

método paso a paso es una combinación de ambos, cuando se añade una nueva característica, tries paso a paso para eliminar una característica, hasta que alcanza un nivel preestablecido. La desventaja de este método es que el conjunto predeterminado de criterios no es bueno, pero también es fácil caer en el exceso de ajuste ellos.


 

Publicados 619 artículos originales · ganado elogios 185 · vistas 660 000 +

Supongo que te gusta

Origin blog.csdn.net/seagal890/article/details/105084892
Recomendado
Clasificación