introducción
El aprendizaje automático es un campo de investigación de la inteligencia artificial en una línea de investigación muy importante en el contexto de la actual era de grandes volúmenes de datos, captura de datos y extraer información valiosa de o patrón, la industria se ha convertido en un medio decisivo para la supervivencia y el desarrollo, lo que hace el pasado ya que los analistas y matemáticos zonas exclusivas de la investigación cada vez más la atención de la gente.
"El verdadero aprendizaje de la máquina" fundación se centra en el aprendizaje de máquina, y cómo utilizar algoritmos para clasificar e introducido gradualmente una variedad de algoritmos de aprendizaje supervisado clásicos, como el k-vecino más cercano, ingenuo de Bayes algoritmo, el algoritmo de regresión logística, SVM, AdaBoost enfoque integrado, basado en la regresión y el árbol de regresión algoritmo de árbol de clasificación algoritmo (CART). La tercera parte se centra en el algoritmo de aprendizaje no supervisado y algunos de sus principales: k-means clustering algoritmo, el algoritmo Apriori, el algoritmo de FP-Crecimiento. La cuarta parte presenta algunas herramientas de aprendizaje de máquina algoritmos subsidiarios.
"Máquina de aprendizaje real" con coreografía de ejemplo, cortado en las tareas diarias, a abandonar el lenguaje académico, el uso de código Python eficiente y reutilizable para ilustrar cómo hacer frente a los datos estadísticos, análisis de datos y visualización. Por varios ejemplos, los lectores pueden aprender de la base de algoritmos de aprendizaje automático, y pueden aplicar algunas de sus tareas estratégicas, como la clasificación, la predicción, la recomendación. Además, también se pueden utilizar para lograr algunas de las características más avanzadas, tales como la consolidación y simplificación.
Sobre el autor
Peter Harrington, de licenciatura y maestría en ingeniería eléctrica, trabajó en California y China Intel Corporation durante siete años. Peter tiene cinco patentes de Estados Unidos y ha publicado artículos en revistas académicas Tres. Ahora es jefe científico de la empresa Zillabyte, antes de unirse a la empresa, se desempeñó dos años de consultor de software de aprendizaje automático. Pedro en sus competiciones de programación de tiempo libre y también participó en la construcción de la impresora 3D.
Maravillosa reseña de libro
"Fácil de aprender, ha demostrado ser muy
útil". --Alexandre Alves, el arquitecto Oracle CEP
"Con cuidado interpretación perfecta código de la textura de la esencia del núcleo de aprendizaje automático."
--Patrick Toohey, ingeniero de software de Mettler-Toledo Hi-Speed
"Ejemplos de buenas! Puede ser utilizado en cualquier lugar!"
--John Griffin, socio de hibernación de búsqueda en el libro Acción
"Narrativa progresiva, describe apropiadamente las diferencias entre los algoritmos."
- Stephen McKamey, Innovaciones director de tecnología Práctica Isómero
directorio
La primera parte de la clasificación
Capítulo 1 de aprendizaje básico de la máquina
1.1 ¿Qué es el Aprendizaje Automático
1.1.1 Los datos del sensor y masivas
1.1.2 El aprendizaje automático es muy importante
1.2 Términos clave
1.3 La principal tarea de aprendizaje automático
1.4 ¿Cómo elegir el algoritmo adecuado
1.5 Desarrollo de la máquina de procedimiento de aplicación de aprendizaje
Ventaja 1,6 lenguaje Python
1.6.1 pseudo-código ejecutable
1.6.2 Python populares
1.6.3 lenguaje Python cuenta
inconveniente 1.6.4 lenguaje Python
1.7 NumPy Fundación de la Biblioteca
1.8 Resumen
Capítulo 2 k-vecino más cercano
2.1 Descripción general k- algoritmo del vecino más cercano
2.1.1 Preparación: El uso de Python para la importación de datos
2.1.2 analizar los datos de un archivo de texto
2.1.3 Cómo clasificador de prueba
2.2 Ejemplo: Uso de k- pares de vecinos más cercanos para mejorar el efecto de los sitios de citas
2.2.1 Preparación de datos: datos analíticos de un archivo de texto
de análisis 2.2.2 Datos: crear un gráfico de dispersión usando Matplotlib
2.2.3 datos listos: valor normalizado
2.2.4 algoritmos de prueba: como una verificación clasificador programa completo
2.2.5 Uso algoritmo: construir un sistema completo disponible
Ejemplo 2.3: Sistema de reconocimiento de escritura a mano
2.3.1 Preparación de datos: la imagen en un vector de prueba
Método de ensayo 2.3.2: mediante un reconocimiento de escritura digital de k- algoritmo de vecinos más cercanos
2.4 Resumen
Capítulo 3 del árbol de decisión
3.1 estructura de árbol de decisiones
3.1.1 información de ganancia
3.1.2 partición de datos
3.1.3 árboles de decisión de construcción recursiva
3.2 anotaciones de dibujo matplotlib en Python dendrograma
3.2.1 matplotlib Notas
estructura de árbol 3.2.2 Notas
3.3 clasificador y almacenamiento de prueba
3.3.1 Método de ensayo: mediante un árbol de decisión para llevar a cabo la clasificación
3.3.2 usando algoritmos: almacenamiento de árbol de decisión
Ejemplo 3.4: Predicción utilizando un tipo de árbol de decisión de lentes de contacto
3.5 Resumen
Capítulo método 4 de clasificación basado en la teoría de probabilidades: Bayes Naive
4.1 clasificación basada en la teoría de la decisión bayesiana
4.2 Probabilidad condicional
4.3 El uso de probabilidad condicional para clasificar
4.4 bayesiano para la clasificación de documentos
4.5 con Python clasificación de textos
4.5.1 Preparación de los datos: Edificio palabra vector del texto
4.5.2 algoritmo de entrenamiento: la palabra de probabilidad se calcula a partir del vector
algoritmo de prueba 4.5.3: modificar la clasificación de acuerdo a la realidad de
los datos listos 4.5.4: bolso del documento de las palabras modelo
4.6 ejemplo: utilizando bayesiano ingenuo filtrar
4.6.1 datos de listas de texto: la segmentación
4.6.2 algoritmos de prueba: Bayes ingenuo de comprobación
4.7 Ejemplo: Uso de Naive región clasificador de Bayes tienden a obtener sugerencias de las personas
Importar fuentes RSS: 4.7.1 Recopilar datos
4.7.2 Análisis de datos: términos relacionados área de visualización
4.8 Resumen
Capítulo 5 Regresión Logística
5,1 Sobre la base de regresión logística y la función sigmoide
coeficiente de regresión 5.2 se determina basándose en el mejor método de optimización
5.2.1 gradiente método de ascenso
5.2.2 algoritmos de entrenamiento: utilizando gradiente de ascenso para encontrar los mejores parámetros
5.2.3 Análisis de los datos: la decisión de trazar las fronteras
5.2.4 algoritmos de entrenamiento: subidas de gradiente estocástico
5.3 Ejemplo: predecir caballos enfermos de mortalidad por enfermedad hernia
5.3.1 Preparación de datos: la falta de valores en los datos de procesado
5.3.2 algoritmos de prueba: clasificación con regresión logística
5.4 Resumen
Capítulo 6 SVM
6,1 en base a la distancia máxima que separa los datos
6.2 encontrar el intervalo máximo
6.2.1 clasificador resolución de problemas de optimización de
aplicación general marco 6.2.2 SVM
6.3 SMO algoritmo de optimización eficiente
SMO algoritmo 6.3.1 de Platt
6.3.2 aplicación versión simplificada del algoritmo SMO tratar con conjuntos de datos a pequeña escala
6.4 con un algoritmo de optimización completa de aceleración Platt SMO
6.5 Aplicación de núcleo en datos complejos
6.5.1 función kernel mapeo de los datos a un espacio de alta dimensional
6.5.2 función kernel
función 6.5.3 kernel utilizado en la prueba
6.6 Ejemplo: problemas de reconocimiento de escritura Review
6.7 Resumen
Capítulo 7 yuanes algoritmo de uso AdaBoost mejora el rendimiento de la clasificación
7,1 Sobre la base de conjuntos de datos de muestra de múltiples clasificadores
7.1.1 ensacado: Construcción del método de remuestreo aleatorio basado en el clasificador de datos
7.1.2 impulsar
Algoritmo 7.2 Formación: basado en falso impulsó el rendimiento clasificador
7.3 Construcción de un solo clasificador débil es un árbol de decisiones basadas
7,4 algoritmo AdaBoost para lograr completa
7.5 Método de ensayo: clasificación basada en AdaBoost
Ejemplo 7.6: Aplicación de conjunto de datos AdaBoost en un disco
7.7 Clasificación desequilibrada
7.7.1 Otros parámetros de rendimiento de clasificación: la precisión, la memoria y las curvas ROC
7.7.2 clasificador de control en base a la decisión de la función de coste
7.7.3 enfoque de muestreo de datos para el problema del desequilibrio
7.8 Resumen
Una segunda porción de la predicción de regresión datos numéricos
Capítulo 8 de predicción de datos numéricos: el regreso
8.1 para encontrar el mejor ajuste de la recta de regresión lineal usando
Localmente ponderado de regresión lineal 8,2
8.3 Ejemplo: para predecir la edad de abulón
factor de reducción de 8,4 "comprender" los datos
regresión de Ridge 8.4.1
8.4.2 Lasso
8.4.3 regresión paso a paso hacia adelante
8,5 pesan desviación y la varianza
8.6 Ejemplo: Lego Set precio predecir
8.6.1 Recogida de datos: Uso de la API de Google Shopping
algoritmo 8.6.2 formación: modelo
8.7 Resumen
Capítulo 9 del árbol de regresión
Localidad de datos complejos modelado 9.1
9.2 Construcción árbol de operaciones continuas y discretas
9.3 El algoritmo CART para el regreso
9.3.1 árbol de construcción
9.3.2 para ejecutar código
la poda de árboles 9.4
9.4.1 Pre-poda
Después de la poda 9.4.2
9.5 Modelo del árbol
9.6 Ejemplo: Comparación de árbol de regresión y la regresión estándar
9.7 El uso de la biblioteca de Python GUI Tkinter Crear
9.7.1 Creación de una interfaz gráfica de usuario Tkinter
9.7.2 Integrado Matplotlib y Tkinter
9.8 Resumen
La tercera parte del aprendizaje no supervisado
Capítulo 10 K- medios algoritmo de agrupamiento para utilizar los paquetes de datos no etiquetados
10.1 K- medios algoritmo de agrupamiento
10.2 mediante el procesamiento para mejorar el rendimiento de la agrupación
10.3-media algoritmo K- medios
10,4 Ejemplo: El punto en el mapa clustering
10.4.1 Yahoo! Buscar poblaciones API
cúmulo 10.4.2 coordenadas geográficas
10.5 Resumen
Capítulo 11 Apriori algoritmo usando análisis de correlación
11.1 Análisis de correlación
11,2 principio Apriori
11.3 algoritmo Apriori para encontrar un uso frecuente conjunto
11.3.1 generar conjuntos candidatos
algoritmo Apriori 11.3.2 tejido intacto
11.4 de la asociación minera centralizado reglas elemento frecuente
11.5 Ejemplo: encuestas modo Congreso
11.5.1 recopilación de datos: la construcción de los registros de votación Congreso de Estados Unidos de conjuntos de datos de transacción
11.5.2 algoritmo de prueba: Basado en el historial de votación reglas de asociación minera del Congreso
Ejemplo 11.6: características similares que se encuentran en la seta venenosa
11.7 Resumen
algoritmo de crecimiento de FP Capítulo 12. eficiente para encontrar conjuntos de elementos frecuentes
12,1 FP del árbol: para conjunto de datos codificada eficiente
12.2 Construcción del árbol de FP
12.2.1 Creación de la estructura de datos de árbol FP
12.2.2 build árbol de FP
12.3 minera conjuntos de elementos frecuentes FP de un árbol
12.3.1 extracción modo de condición il
12.3.2 árbol condición creación FP
12.4 Ejemplo: encontrar alguna palabra co-ocurrencia de la fuente de Twitter
12.5 Ejemplo: desde la minería sitio web de noticias de clics
12.6 Resumen
Parte IV Otras Herramientas
Capítulo 13 PCA para simplificar el uso de datos
tecnología de reducción de 13,1 dimensionalidad
13.2 PCA
13.2.1 movimiento de los ejes
13.2.2 NumPy implementado en el PCA
Ejemplo 13.3: el uso de un semiconductor fabricación de reducción de dimensionalidad PCA
13.4 Resumen
Capítulo 14 SVD simplificar el uso de datos
14.1 aplicaciones SVD
14.1.1 implícita indexación semántica
del sistema 14.1.2 recomendación
factorización 14,2 matriz
14.3 usando la SVD implementación de Python
14.4 motor de recomendación de filtrado colaborativo basado
14.4.1 similitud cálculo de
elementos basados en la similitud 14.4.2 o similitud basada en el usuario?
14.4.3 Evaluación motor de recomendación
14.5 Ejemplo: un motor de recomendación de restaurante gourmet
14.5.1 platos no han sido recomendados
14.5.2 recomienda el uso de SVD efecto de mejora
14.5.3 build desafíos que enfrenta el motor de recomendación
14.6 de compresión de imágenes basado en SVD
14.7 Resumen
Capítulo 15 de datos grande con MapReduce
15,1 MapReduce: distribuido marco de computación
15.2 flujo Hadoop
15.2.1 Distributed Computing media y la varianza Mapper
15.2.2 Distributed Computing reductor media y la varianza
15,3 programa de ejecutar Hadoop en Amazon Web Services
servicios de AWS disponibles en el 15.3.1
15.3.2 Amazon Web Services se gira en gira
15.3.3 que se ejecuta en el trabajo EMR Hadoop
aprendizaje automático en 15,4 MapReduce
15.5 mrjob en Python para automatizar MapReduce
15.5.1 integración sin fisuras con mrjob EMR de
un scripts de MapReduce 15.5.2 mrjob perfiles
15,6 Ejemplo: Distributed algoritmo SVM de Pegasos
15.6.1 Pegasos algoritmo
algoritmo 15.6.2 formación: Lograr versión de MapReduce con SVM mrjob
15.7 MapReduce lo que realmente necesita?
15.8 Resumen