estadística matemática y teoría de la información - bases de aprendizaje automático

En primer lugar, la teoría de la información

teoría de la información se refiere a la incertidumbre del mundo objetivo.
La cuestión fundamental en las comunicaciones es de aproximadamente o exactamente el doble que en otro punto seleccionado en el mensaje ahora.
En la vida, el soporte de información es el mensaje. Información diferentes mensajes presentados en la sensación intuitiva no es exactamente la misma, tales como "Ma obtener campeón de culturismo Orsay" que "obtener el campeón de culturismo Orsay Schwarzenegger" de la información es mucho mayor.
Porque el primero es una pequeña probabilidad de un acontecimiento, que nos hemos acostumbrado. Cuanto mayor sea la cantidad de información que cuanto mayor es la incertidumbre del mensaje proporcionado.

entropía

Un sistema de desorden interno

fuente

La generación de un mensaje (señal), y la fuente de la secuencia de mensajes de mensajes consecutivos.

información

Medida de la cantidad de información
en teoría de la información, si la probabilidad de ocurrencia del evento A \ (la p- (A) \) , la cantidad de información de este evento se define como
\ (h (A) = -
log_2p (A) \) Por ejemplo: Cuando \ (P (a \) ) para obtener información acerca de 1/1000 10, cuando el \ (p (a) \) es la cantidad de información obtenida sobre 1 1/2

entropía

La entropía es una cantidad promedio estadístico de la información a partir de cada símbolo de fuente puede ser emitido en el espacio de probabilidad consiste en fuente.
La entropía de la información de origen de solo evento puede comprender el cálculo de cada símbolo
si una información discreta fuente X comprende n símbolos, cada símbolo \ (a_i \) valores para la \ (P (a_i) \) , la fuente de la X-entropía
\ (H (x) = - \ sum_ {i = 1} ^ np (a_i) log_2p (a_i) \)

entropía condicional

En el concepto de la teoría de la probabilidad condicionada, probabilidad condicional se extenderá a teoría de la información, se puede obtener la entropía condicional.
Si la correlación entre dos fuente de canal, en condiciones conocidas en la que una fuente de X, la otra fuente se reducirá la entropía.
entropía condicional \ (H (Y | X) \) representa la variable aleatoria es conocido \ (X- \) en las condiciones de, otra variable aleatoria \ (la Y \) se da incertidumbre \ ( X \) cuando, de acuerdo a \ (la Y \) probabilidad condicional calcula la entropía de nuevo \ (X \) encontrar esperanza matemática

$ H (Y | X) = \ sum_ {i = 1} ^ np (x_i) H (Y | X = x_i) $

\ (= - \ sum_ {i = 1} ^ np (x_i) \ sum_ {j = 1} ^ pf (y_i | x_i) log_2p (y_i | x_i) \)

\ (= - \ sum_ {i = 1} ^ n \ sum_ {j = 1} ^ np (x_i, y_i) log_2p (y_j | x_i) \)

Lo que significa que la variable de entropía condicional de acuerdo con \ (X- \) valores de la variable Y en un árbol, la entropía calcula para cada tipo sub-out individual, entonces la entropía de cada clase como \ (X- \) Distributed Computing esperanza matemática.

ganancia de información

En la máquina de aprendizaje, ganancia de información describe una característica de traer la cantidad de información, a menudo en la clasificación de selección de características, también conocida como información mutua

信息增益=信息熵-条件熵

Suponiendo que no es una variable aleatoria \ (los ejes X \) , y otro variable aleatoria \ (el Y- \) , y que su información es ganancia

\ (I (X; Y) = H (Y) -H (Y | X) \)

X a Y puede ser entendido como traer ganancia de información.
Para un conjunto de datos de entrenamiento dado \ (la Y- \) , \ (H (la Y-) \) indica cuando no se da alguna de las funciones del conjunto de entrenamiento clasificación incertidumbre
\ (H (Y | X) \) denotan el uso de la característica \ (X \) para el conjunto de entrenamiento \ (y \) clasificación de incertidumbre.
ganancia de información representa la característica \ (X \) para llevar el conjunto de entrenamiento \ (y \) clasificación de la incertidumbre el grado de reducción, es decir, en el que \ (X- \) para el conjunto de entrenamiento \ (la \ Y) diferenciabilidad.

relación de ganancia de información

Información de valor de la ganancia depende en gran medida de la información de conjunto de datos de entropía \ (H (el Y-) \) , y por lo tanto no tiene sentido absoluto. Para resolver este problema, los investigadores han propuesto relación de ganancia de información

\ (G (X, Y) = I (X; Y) / H (Y) \)

entropía relativa

También conocida como la entropía relativa KL divergencia, para la descripción de la diferencia entre dos distribuciones de probabilidad diferentes.

\ (D_ {KL} (P || Q) = \ sum_ {i = 1} ^ np (x_i) log_2 \ frac {p (x_i)} {q (x_i)} \)

Se utiliza para medir basado entropía relativa \ (P \) codificada a partir de la codificada \ (Q \) número adicional de bits de muestra requerido promediados.

Principio de máxima entropía

Cuando sólo una parte de los conocimientos necesarios para dominar la distribución desconocida, se debe seleccionar de acuerdo con este conocimiento, pero la mayor distribución de probabilidad entropía.
El principio de máxima entropía es la esencia del conocimiento para cumplir con la premisa conocida, la única forma de distribución final en nombre de uno de la opción más justa para la distribución desconocida que debería ser su más seguro o más distribución aleatoria desde entonces.

teoría de la información utiliza el concepto de "entropía de la información", el número y la eficiencia de la transferencia de información y otras cuestiones para hacer la interpretación de la información y la comunicación en una sola fuente, y escalabilidad entre la incertidumbre y la información erigido un mundo puente

En segundo lugar, la estadística matemática

Estadística Matemática (estadística matemática) misión se basa en una muestra se puede observar a su vez deducir la naturaleza general de las
herramientas inferidos 统计量, las estadísticas son 样本的函数, es una 随机变量
estadística matemática para estudiar la base de observaciones o datos obtenidos fenómeno experimentalmente al azar, y el estudio del objetivo la ley para hacer estimaciones y juicios razonables.
La teoría estadística basada en algoritmos de aprendizaje de máquina y ayuda explicar los resultados de la minería de datos, única explicación razonable, para poder reflejar el valor de los datos.

Generalización: la capacidad para no pertenece al modelo utilizado para probar un nuevo conjunto de muestras. La capacidad de generalización más fuerte, mejor alumno

La diferencia entre la teoría de probabilidad

En teoría de la probabilidad de encontrar un punto, estadística matemática es un empuje local en su conjunto

  • Partiendo de la premisa de que la distribución de probabilidad es conocida función de variables aleatorias, para analizar las características y las leyes de variables aleatorias en base a la distribución conocida;
  • sujetos estadísticas es distribuyen una variable aleatoria desconocido, la investigación es la observación de variables aleatorias independientes repetidos, para extrapolar la distribución original de la observación obtenido.
    Estadística Matemática puede ser visto como un inverso de la teoría de la probabilidad, más inclinados a la metodología de estudio desde una perspectiva teórica, y luego explorar cómo aplicar

Por ejemplo, para comprar billetes de lotería

  • La solución se basa en la teoría de probabilidad conocida de 摇奖规律la posibilidad de determinar un número de nota ganadoras
  • estadística matemática para resolver es ganar varias veces / no ganador números registrados de acuerdo con el seguro de la exactitud de la especulación antes 摇奖的规律, aunque puede ser inútil.

Inferencia estadística manera: Estimación de Parámetros

La estimación de parámetros para estimar los parámetros desconocidos de la distribución general de las muestras tomadas al azar, incluyendo punto y la estimación del intervalo
* punto de estimación (estimación puntual)
métodos específicos incluyen monent (método de monents) y el método de estimación de máxima verosimilitud (estimación de máxima verosimilitud )
ambos métodos representan las ideas Deducir parámetros de la población, pero para los mismos parámetros, la cantidad estimada obtenidos por diferentes métodos de estimación es probable que difieran, por lo general es imparcial, eficacia, coherencia evaluado
intervalo * estimar (intervalo de estimación)
intervalo de estimación de intervalo que corresponde a proporcionar más margen de error y el punto estimado sobre la base de

Estadística manera Inferencia: la prueba de hipótesis

Para aceptar o rechazar un juicio global sobre muestras tomadas al azar

Suponiendo el papel de la detección se infiere de acuerdo con la fuerza de su generalización en el aprendizaje de rendimiento en el equipo de prueba, y para determinar el grado exacto de las conclusiones se puede generalizar además para comparar el rendimiento de diferentes filtro de aprendizaje.

Error de configuración se puede generalizar en tres partes:

  • Desviación (sesgo)
    el grado de desviación entre algoritmo predicho y los resultados reales, un retrato de mi modelo underfitting
  • Varianza (varianza)
    perturbación se prevé para representar los datos de las características de rendimiento de un retrato de modelo de exceso de ajuste
  • Ruido (ruido)
    representa la corriente para llegar a las tareas de aprendizaje generalización de error mínimo, un retrato de la dificultad de la tarea en sí

Supongo que te gusta

Origin www.cnblogs.com/chenqionghe/p/12575525.html
Recomendado
Clasificación