En este capítulo, presentaremos lo siguiente:
Cree RDD con Spark 2.0 utilizando una fuente de datos interna
Cree RDD con Spark 2.0 utilizando una fuente de datos externa
Convierta RDD usando Spark 2.0 usando la API filter ()
Convierta RDD usando la API flatMap () súper útil
Convierta RDD usando la operación de configuración API
Use groupBy () y reduceByKey () para la conversión / agregación RDD
Convertir RDD usando la API zip ()
Use RDD clave-valor emparejado para la conversión de combinación
Utilice el valor de clave RDD emparejado para reducir y agrupar la conversión
Crear DataFrame a partir de la estructura de datos Scala
Operar en DataFrames mediante programación sin SQL
Cargar DataFrame y configuraciones de fuentes externas
Use DataFrame con lenguaje SQL estándar-SparkSQL
Usando secuencia Scala usando API de conjunto de datos
Cree y use un conjunto de datos desde RDD, luego regrese nuevamente
Usando Dataset API y SQL en combinación con JSON
Use objetos de dominio para usar la API de conjunto de datos para la programación funcional
Implemente un poderoso sistema de aprendizaje automático
En este capítulo, vamos a presentar:
La chispa de la API de estadísticas básicas, puede ayudar a construir su propio algoritmo
ML tubería para aplicaciones de aprendizaje automático realidad
utilizando la chispa de datos estandarizados
de datos de división de formación y las pruebas
de un nuevo conjunto de datos de API común Operación
Crear y usar
estructuras de datos RDD, DataFrame y Dataset Spark ML La LabelPoint de archivos de texto
en Spark 2.0 Acceder a Spark clusters en Spark 2.0+
Access Spark Cluster Pre-Spark 2.0
Access SparkContext en Spark 2.0 en relación con el acceso a objetos SparkSession
Nuevo modelo de exportación y marcado PMML en
Spark 2.0 Use Spark 2.0 para la evaluación del modelo de regresión
Use Spark 2.0 para la evaluación del modelo de clasificación binaria
Use Spark 2.0 para la evaluación del modelo de clasificación multi-etiqueta
Use Spark 2.0 para la evaluación del modelo de clasificación multi-clase
Use la biblioteca Scala Breeze en Spark 2.0 Hacer gráficos