aprendizaje de las máquinas de combate [aprendizaje automático en la acción]

introducción

　　El aprendizaje automático es un campo de investigación de la inteligencia artificial en una línea de investigación muy importante en el contexto de la actual era de grandes volúmenes de datos, captura de datos y extraer información valiosa de o patrón, la industria se ha convertido en un medio decisivo para la supervivencia y el desarrollo, lo que hace el pasado ya que los analistas y matemáticos zonas exclusivas de la investigación cada vez más la atención de la gente.
　　"El verdadero aprendizaje de la máquina" fundación se centra en el aprendizaje de máquina, y cómo utilizar algoritmos para clasificar e introducido gradualmente una variedad de algoritmos de aprendizaje supervisado clásicos, como el k-vecino más cercano, ingenuo de Bayes algoritmo, el algoritmo de regresión logística, SVM, AdaBoost enfoque integrado, basado en la regresión y el árbol de regresión algoritmo de árbol de clasificación algoritmo (CART). La tercera parte se centra en el algoritmo de aprendizaje no supervisado y algunos de sus principales: k-means clustering algoritmo, el algoritmo Apriori, el algoritmo de FP-Crecimiento. La cuarta parte presenta algunas herramientas de aprendizaje de máquina algoritmos subsidiarios.
　　"Máquina de aprendizaje real" con coreografía de ejemplo, cortado en las tareas diarias, a abandonar el lenguaje académico, el uso de código Python eficiente y reutilizable para ilustrar cómo hacer frente a los datos estadísticos, análisis de datos y visualización. Por varios ejemplos, los lectores pueden aprender de la base de algoritmos de aprendizaje automático, y pueden aplicar algunas de sus tareas estratégicas, como la clasificación, la predicción, la recomendación. Además, también se pueden utilizar para lograr algunas de las características más avanzadas, tales como la consolidación y simplificación.

Sobre el autor

　　Peter Harrington, de licenciatura y maestría en ingeniería eléctrica, trabajó en California y China Intel Corporation durante siete años. Peter tiene cinco patentes de Estados Unidos y ha publicado artículos en revistas académicas Tres. Ahora es jefe científico de la empresa Zillabyte, antes de unirse a la empresa, se desempeñó dos años de consultor de software de aprendizaje automático. Pedro en sus competiciones de programación de tiempo libre y también participó en la construcción de la impresora 3D.

Maravillosa reseña de libro

　　"Fácil de aprender, ha demostrado ser muy
　　útil". --Alexandre Alves, el arquitecto Oracle CEP

　　"Con cuidado interpretación perfecta código de la textura de la esencia del núcleo de aprendizaje automático."
　　--Patrick Toohey, ingeniero de software de Mettler-Toledo Hi-Speed

　　"Ejemplos de buenas! Puede ser utilizado en cualquier lugar!"
　　--John Griffin, socio de hibernación de búsqueda en el libro Acción

　　"Narrativa progresiva, describe apropiadamente las diferencias entre los algoritmos."
　　- Stephen McKamey, Innovaciones director de tecnología Práctica Isómero

directorio

La primera parte de la clasificación

Capítulo 1 de aprendizaje básico de la máquina　　

1.1 ¿Qué es el Aprendizaje Automático　　

1.1.1 Los datos del sensor y masivas　　
1.1.2 El aprendizaje automático es muy importante　　

1.2 Términos clave

1.3 La principal tarea de aprendizaje automático

1.4 ¿Cómo elegir el algoritmo adecuado　　

1.5 Desarrollo de la máquina de procedimiento de aplicación de aprendizaje

Ventaja 1,6 lenguaje Python　　

1.6.1 pseudo-código ejecutable　　
1.6.2 Python populares　　
1.6.3 lenguaje Python cuenta　　
inconveniente 1.6.4 lenguaje Python　　

1.7 NumPy Fundación de la Biblioteca　　

1.8 Resumen　　

Capítulo 2 k-vecino más cercano 　　

2.1 Descripción general k- algoritmo del vecino más cercano　　

2.1.1 Preparación: El uso de Python para la importación de datos　　
2.1.2 analizar los datos de un archivo de texto　　
2.1.3 Cómo clasificador de prueba　　

2.2 Ejemplo: Uso de k- pares de vecinos más cercanos para mejorar el efecto de los sitios de citas　　

2.2.1 Preparación de datos: datos analíticos de un archivo de texto　　
de análisis 2.2.2 Datos: crear un gráfico de dispersión usando Matplotlib　　
2.2.3 datos listos: valor normalizado　　
2.2.4 algoritmos de prueba: como una verificación clasificador programa completo　　
2.2.5 Uso algoritmo: construir un sistema completo disponible　　

Ejemplo 2.3: Sistema de reconocimiento de escritura a mano　　

2.3.1 Preparación de datos: la imagen en un vector de prueba　　
Método de ensayo 2.3.2: mediante un reconocimiento de escritura digital de k- algoritmo de vecinos más cercanos　　

2.4 Resumen　　

Capítulo 3 del árbol de decisión

3.1 estructura de árbol de decisiones　　

3.1.1 información de ganancia　　
3.1.2 partición de datos　　
3.1.3 árboles de decisión de construcción recursiva　　

3.2 anotaciones de dibujo matplotlib en Python dendrograma　　

3.2.1 matplotlib Notas　　
estructura de árbol 3.2.2 Notas　　

3.3 clasificador y almacenamiento de prueba　　

3.3.1 Método de ensayo: mediante un árbol de decisión para llevar a cabo la clasificación　　
3.3.2 usando algoritmos: almacenamiento de árbol de decisión　　

Ejemplo 3.4: Predicción utilizando un tipo de árbol de decisión de lentes de contacto　　

3.5 Resumen　　

Capítulo método 4 de clasificación basado en la teoría de probabilidades: Bayes Naive 　　

4.1 clasificación basada en la teoría de la decisión bayesiana　　

4.2 Probabilidad condicional　　

4.3 El uso de probabilidad condicional para clasificar　　
4.4 bayesiano para la clasificación de documentos　　
4.5 con Python clasificación de textos　　
4.5.1 Preparación de los datos: Edificio palabra vector del texto　　
4.5.2 algoritmo de entrenamiento: la palabra de probabilidad se calcula a partir del vector　　
algoritmo de prueba 4.5.3: modificar la clasificación de acuerdo a la realidad de　　
los datos listos 4.5.4: bolso del documento de las palabras modelo　　
4.6 ejemplo: utilizando bayesiano ingenuo filtrar　　
4.6.1 datos de listas de texto: la segmentación　　
4.6.2 algoritmos de prueba: Bayes ingenuo de comprobación　　

4.7 Ejemplo: Uso de Naive región clasificador de Bayes tienden a obtener sugerencias de las personas　　

Importar fuentes RSS: 4.7.1 Recopilar datos　　
4.7.2 Análisis de datos: términos relacionados área de visualización　　

4.8 Resumen　　

Capítulo 5 Regresión Logística 　　

5,1 Sobre la base de regresión logística y la función sigmoide　　

coeficiente de regresión 5.2 se determina basándose en el mejor método de optimización　　

5.2.1 gradiente método de ascenso　　
5.2.2 algoritmos de entrenamiento: utilizando gradiente de ascenso para encontrar los mejores parámetros　　
5.2.3 Análisis de los datos: la decisión de trazar las fronteras　　
5.2.4 algoritmos de entrenamiento: subidas de gradiente estocástico　　

5.3 Ejemplo: predecir caballos enfermos de mortalidad por enfermedad hernia　　

5.3.1 Preparación de datos: la falta de valores en los datos de procesado　　
5.3.2 algoritmos de prueba: clasificación con regresión logística　　

5.4 Resumen　　

Capítulo 6 SVM　　

6,1 en base a la distancia máxima que separa los datos　　

6.2 encontrar el intervalo máximo　　

6.2.1 clasificador resolución de problemas de optimización de　　
aplicación general marco 6.2.2 SVM　　

6.3 SMO algoritmo de optimización eficiente　　

SMO algoritmo 6.3.1 de Platt　　
6.3.2 aplicación versión simplificada del algoritmo SMO tratar con conjuntos de datos a pequeña escala　　

6.4 con un algoritmo de optimización completa de aceleración Platt SMO

6.5 Aplicación de núcleo en datos complejos　　

6.5.1 función kernel mapeo de los datos a un espacio de alta dimensional　　
6.5.2 función kernel　　
función 6.5.3 kernel utilizado en la prueba　　

6.6 Ejemplo: problemas de reconocimiento de escritura Review

6.7 Resumen　　

Capítulo 7 yuanes algoritmo de uso AdaBoost mejora el rendimiento de la clasificación 　　

7,1 Sobre la base de conjuntos de datos de muestra de múltiples clasificadores　　

7.1.1 ensacado: Construcción del método de remuestreo aleatorio basado en el clasificador de datos　　
7.1.2 impulsar　　

Algoritmo 7.2 Formación: basado en falso impulsó el rendimiento clasificador　　

7.3 Construcción de un solo clasificador débil es un árbol de decisiones basadas　　

7,4 algoritmo AdaBoost para lograr completa　　

7.5 Método de ensayo: clasificación basada en AdaBoost　　

Ejemplo 7.6: Aplicación de conjunto de datos AdaBoost en un disco　　

7.7 Clasificación desequilibrada　　

7.7.1 Otros parámetros de rendimiento de clasificación: la precisión, la memoria y las curvas ROC　　
7.7.2 clasificador de control en base a la decisión de la función de coste　　
7.7.3 enfoque de muestreo de datos para el problema del desequilibrio　　

7.8 Resumen　　

Una segunda porción de la predicción de regresión datos numéricos

Capítulo 8 de predicción de datos numéricos: el regreso 　　

8.1 para encontrar el mejor ajuste de la recta de regresión lineal usando　　

Localmente ponderado de regresión lineal 8,2　　

8.3 Ejemplo: para predecir la edad de abulón　　

factor de reducción de 8,4 "comprender" los datos　　

regresión de Ridge 8.4.1　　
8.4.2 Lasso　　
8.4.3 regresión paso a paso hacia adelante　　

8,5 pesan desviación y la varianza　　

8.6 Ejemplo: Lego Set precio predecir　　

8.6.1 Recogida de datos: Uso de la API de Google Shopping　　
algoritmo 8.6.2 formación: modelo　　

8.7 Resumen　　

Capítulo 9 del árbol de regresión　　

Localidad de datos complejos modelado 9.1　　

9.2 Construcción árbol de operaciones continuas y discretas　　

9.3 El algoritmo CART para el regreso　　

9.3.1 árbol de construcción　　
9.3.2 para ejecutar código　　

la poda de árboles 9.4　　

9.4.1 Pre-poda　　
Después de la poda 9.4.2　　

9.5 Modelo del árbol　　

9.6 Ejemplo: Comparación de árbol de regresión y la regresión estándar　　

9.7 El uso de la biblioteca de Python GUI Tkinter Crear　　

9.7.1 Creación de una interfaz gráfica de usuario Tkinter　　
9.7.2 Integrado Matplotlib y Tkinter　　

9.8 Resumen　　

La tercera parte del aprendizaje no supervisado

Capítulo 10 K- medios algoritmo de agrupamiento para utilizar los paquetes de datos no etiquetados　　

10.1 K- medios algoritmo de agrupamiento　　

10.2 mediante el procesamiento para mejorar el rendimiento de la agrupación　　

10.3-media algoritmo K- medios　　

10,4 Ejemplo: El punto en el mapa clustering　　

10.4.1 Yahoo! Buscar poblaciones API　　
cúmulo 10.4.2 coordenadas geográficas　　

10.5 Resumen　　

Capítulo 11 Apriori algoritmo usando análisis de correlación　　

11.1 Análisis de correlación　　

11,2 principio Apriori　　

11.3 algoritmo Apriori para encontrar un uso frecuente conjunto　　
11.3.1 generar conjuntos candidatos　　
algoritmo Apriori 11.3.2 tejido intacto　　

11.4 de la asociación minera centralizado reglas elemento frecuente　　

11.5 Ejemplo: encuestas modo Congreso　　

11.5.1 recopilación de datos: la construcción de los registros de votación Congreso de Estados Unidos de conjuntos de datos de transacción　　
11.5.2 algoritmo de prueba: Basado en el historial de votación reglas de asociación minera del Congreso　　

Ejemplo 11.6: características similares que se encuentran en la seta venenosa　　

11.7 Resumen　　

algoritmo de crecimiento de FP Capítulo 12. eficiente para encontrar conjuntos de elementos frecuentes　　

12,1 FP del árbol: para conjunto de datos codificada eficiente　　

12.2 Construcción del árbol de FP　　

12.2.1 Creación de la estructura de datos de árbol FP　　
12.2.2 build árbol de FP　　

12.3 minera conjuntos de elementos frecuentes FP de un árbol　　

12.3.1 extracción modo de condición il　　
12.3.2 árbol condición creación FP　　

12.4 Ejemplo: encontrar alguna palabra co-ocurrencia de la fuente de Twitter　　

12.5 Ejemplo: desde la minería sitio web de noticias de clics　　

12.6 Resumen　　

Parte IV Otras Herramientas

Capítulo 13 PCA para simplificar el uso de datos　　

tecnología de reducción de 13,1 dimensionalidad　　

13.2 PCA　　

13.2.1 movimiento de los ejes　　
13.2.2 NumPy implementado en el PCA　　

Ejemplo 13.3: el uso de un semiconductor fabricación de reducción de dimensionalidad PCA　　

13.4 Resumen　　

Capítulo 14 SVD simplificar el uso de datos　　

14.1 aplicaciones SVD　　

14.1.1 implícita indexación semántica　　
del sistema 14.1.2 recomendación　　

factorización 14,2 matriz　　

14.3 usando la SVD implementación de Python　　

14.4 motor de recomendación de filtrado colaborativo basado　　

14.4.1 similitud cálculo de　　
elementos basados en la similitud 14.4.2 o similitud basada en el usuario?　　
14.4.3 Evaluación motor de recomendación　　

14.5 Ejemplo: un motor de recomendación de restaurante gourmet　　

14.5.1 platos no han sido recomendados　　
14.5.2 recomienda el uso de SVD efecto de mejora　　
14.5.3 build desafíos que enfrenta el motor de recomendación　　

14.6 de compresión de imágenes basado en SVD　　

14.7 Resumen　　

Capítulo 15 de datos grande con MapReduce　　

15,1 MapReduce: distribuido marco de computación　　

15.2 flujo Hadoop　　

15.2.1 Distributed Computing media y la varianza Mapper　　
15.2.2 Distributed Computing reductor media y la varianza　　

15,3 programa de ejecutar Hadoop en Amazon Web Services　　

servicios de AWS disponibles en el 15.3.1　　
15.3.2 Amazon Web Services se gira en gira　　
15.3.3 que se ejecuta en el trabajo EMR Hadoop　　
aprendizaje automático en 15,4 MapReduce　　

15.5 mrjob en Python para automatizar MapReduce　　

15.5.1 integración sin fisuras con mrjob EMR de　　
un scripts de MapReduce 15.5.2 mrjob perfiles　　

15,6 Ejemplo: Distributed algoritmo SVM de Pegasos　　

15.6.1 Pegasos algoritmo　　
algoritmo 15.6.2 formación: Lograr versión de MapReduce con SVM mrjob　　

15.7 MapReduce lo que realmente necesita?　　

15.8 Resumen