Texto Selección de características

1. Ley de Información de ganancia

Método información de ganancia en función de toda una clasificación de elementos de TI puede proporcionar información a medida hasta qué punto el grado de importancia de los puntos de función, lo que determina la elección de la función.

Medido por la cantidad de entropía de la información, por lo tanto, obtener información que no se considera pobre entropía y tras el examen de las características del documento, cualquier artículo de entropía

 

 

 2. El estadístico de chi-cuadrado

medidas de Chi-cuadrado estadística la categoría característica y t está asociado directamente con el grado de C, y C y T corresponden asumiendo directamente una distribución chi-cuadrado con un grado de libertad en orden.

Si es así N representa el número total de entrenamiento corpus de documentos, A representa una clase C y que contiene la frecuencia documento T, B no representa pertenecen a la clase C, pero el documento contiene t de la frecuencia, C denota la clase C, pero no incluye la frecuencia documento t,

D representa ni C ni la frecuencia t documento.

 

 3. Información Mutua

La idea básica de la información mutua es: cuanto mayor sea la información mutua, t mayor es el grado de características y categorías de co-ocurrencia C

 

Supongo que te gusta

Origin www.cnblogs.com/yangyang12138/p/12602598.html
Recomendado
Clasificación