Apache Spark 2.x Machine Learning Cookbook (3) Los tres artilleros de datos de Spark para el aprendizaje automático: la combinación perfecta

En este capítulo, presentaremos lo siguiente:

Cree RDD con Spark 2.0 utilizando una fuente de datos interna

Cree RDD con Spark 2.0 utilizando una fuente de datos externa

Convierta RDD usando Spark 2.0 usando la API filter ()

Convierta RDD usando la API flatMap () súper útil

Convierta RDD usando la operación de configuración API

Use groupBy () y reduceByKey () para la conversión / agregación RDD

Convertir RDD usando la API zip ()

Use RDD clave-valor emparejado para la conversión de combinación

Utilice el valor de clave RDD emparejado para reducir y agrupar la conversión

Crear DataFrame a partir de la estructura de datos Scala

Operar en DataFrames mediante programación sin SQL

Cargar DataFrame y configuraciones de fuentes externas

Use DataFrame con lenguaje SQL estándar-SparkSQL

Usando secuencia Scala usando API de conjunto de datos

Cree y use un conjunto de datos desde RDD, luego regrese nuevamente

Usando Dataset API y SQL en combinación con JSON

Use objetos de dominio para usar la API de conjunto de datos para la programación funcional

 

Implemente un poderoso sistema de aprendizaje automático

En este capítulo, vamos a presentar:
La chispa de la API de estadísticas básicas, puede ayudar a construir su propio algoritmo
ML tubería para aplicaciones de aprendizaje automático realidad
utilizando la chispa de datos estandarizados
de datos de división de formación y las pruebas
de un nuevo conjunto de datos de API común Operación
Crear y usar
estructuras de datos RDD, DataFrame y Dataset Spark ML La LabelPoint de archivos de texto
en Spark 2.0 Acceder a Spark clusters en Spark 2.0+
Access Spark Cluster Pre-Spark 2.0
Access SparkContext en Spark 2.0 en relación con el acceso a objetos SparkSession
Nuevo modelo de exportación y marcado PMML en
Spark 2.0 Use Spark 2.0 para la evaluación del modelo de regresión
Use Spark 2.0 para la evaluación del modelo de clasificación binaria
Use Spark 2.0 para la evaluación del modelo de clasificación multi-etiqueta
Use Spark 2.0 para la evaluación del modelo de clasificación multi-clase
Use la biblioteca Scala Breeze en Spark 2.0 Hacer gráficos

 

 

 

Publicado 158 artículos originales · Me gusta 28 · Visita 330,000+

Supongo que te gusta

Origin blog.csdn.net/wangjunji34478/article/details/105608742
Recomendado
Clasificación