Descripción general del aprendizaje de este curso "Creación y uso de clústeres de big data"

Nombre del curso: Construcción y uso de clusters de Big Data


Propósito del aprendizaje: aprender una pequeña tecnología cada año.


Objetivos de aprendizaje: utilizar los conocimientos adquiridos para analizar las 10 categorías más populares en la industria de los cigarrillos electrónicos, los 3 productos más populares en cada región y la conversión de sitios web.


Contenido de aprendizaje:

primera parte:

Aprendizaje de conocimientos previos sobre big data

Descripción general de grandes datos

Descripción general de Hadoop

la segunda parte:

Cree un entorno de clúster de big data

Aprende sobre el sistema operativo Linux

Dominar la creación y puesta en marcha de máquinas virtuales.

Familiarizado con la instalación del sistema operativo Linux.

Dominar la clonación de máquinas virtuales

Familiarizado con la red del sistema operativo Linux y la configuración del nombre de host.

Familiarizado con la configuración del sistema operativo Linux SSH y sincronización horaria.

Implementación del clúster maestro de ZooKeeper

Implementación maestra del clúster Hadoop

Implementación del clúster Master Spark

Implementación del clúster maestro HBase

Implementación del clúster Master Kafka

la tercera parte:

Análisis de los 10 principales de categorías populares

Domine las 10 principales ideas de análisis e implementación de categorías populares

Domine cómo crear conexiones Spark y leer conjuntos de datos

Domina el uso de Spark para obtener datos comerciales.

Domina los tipos de comportamiento de las categorías estadísticas usando Spark

Domine los tipos de comportamiento de las categorías de filtrado usando Spark

Domina el uso de Spark para fusionar tipos de comportamiento de la misma categoría

Domina el uso de Spark para ordenar según el tipo de comportamiento de la categoría.

Domine la persistencia de datos en la base de datos HBase

Familiarizado con la ejecución de programas a través de Spark en YARN

cuarta parte:

Análisis de los 3 productos más populares en cada región

Domine las ideas de implementación del análisis Top3 de productos populares en cada región.

Domine cómo crear conexiones Spark y leer conjuntos de datos

Domina el uso de Spark para obtener datos comerciales.

Domine los tipos de comportamiento al usar Spark para filtrar productos

Domina el uso de Spark para convertir formatos de datos.

Domina el uso de Spark para contar diferentes productos en cada región.

Domina el uso de Spark para agrupar por región

Domina el uso de Spark para ordenar según el número de vistas de productos en el área

Domine la persistencia de datos en la base de datos HBase

Domina la ejecución de programas a través de Spark On YARN

la quinta parte:

Estadísticas de tasa de conversión de sitios web

Domine la idea de realización de las estadísticas de tasa de conversión de sitios web

Aprenda a generar datos de navegación del usuario

Domine cómo crear conexiones Spark y leer conjuntos de datos

Domina el uso de Spark SQL para contar el número de visitas a cada página.

Dominar el uso de Spark SQL para obtener el orden en el que cada usuario navega por las páginas web

Domine el uso de Spark SQL para fusionar páginas web navegadas por el mismo usuario

Domine el uso de Spark SQL para contar el número de cada salto

Domine el uso de Spark SQL para calcular la tasa de conversión de un solo salto de la página

Domine la persistencia de datos en la base de datos HBase

熟悉通过Spark On YARN运行程序

Supongo que te gusta

Origin blog.csdn.net/weixin_62909516/article/details/131627909
Recomendado
Clasificación