Nombre del curso: Construcción y uso de clusters de Big Data
Propósito del aprendizaje: aprender una pequeña tecnología cada año.
Objetivos de aprendizaje: utilizar los conocimientos adquiridos para analizar las 10 categorías más populares en la industria de los cigarrillos electrónicos, los 3 productos más populares en cada región y la conversión de sitios web.
Contenido de aprendizaje:
primera parte: Aprendizaje de conocimientos previos sobre big data |
Descripción general de grandes datos Descripción general de Hadoop |
la segunda parte: Cree un entorno de clúster de big data |
Aprende sobre el sistema operativo Linux Dominar la creación y puesta en marcha de máquinas virtuales. Familiarizado con la instalación del sistema operativo Linux. Dominar la clonación de máquinas virtuales Familiarizado con la red del sistema operativo Linux y la configuración del nombre de host. Familiarizado con la configuración del sistema operativo Linux SSH y sincronización horaria. Implementación del clúster maestro de ZooKeeper Implementación maestra del clúster Hadoop Implementación del clúster Master Spark Implementación del clúster maestro HBase Implementación del clúster Master Kafka |
la tercera parte: Análisis de los 10 principales de categorías populares |
Domine las 10 principales ideas de análisis e implementación de categorías populares Domine cómo crear conexiones Spark y leer conjuntos de datos Domina el uso de Spark para obtener datos comerciales. Domina los tipos de comportamiento de las categorías estadísticas usando Spark Domine los tipos de comportamiento de las categorías de filtrado usando Spark Domina el uso de Spark para fusionar tipos de comportamiento de la misma categoría Domina el uso de Spark para ordenar según el tipo de comportamiento de la categoría. Domine la persistencia de datos en la base de datos HBase Familiarizado con la ejecución de programas a través de Spark en YARN |
cuarta parte: Análisis de los 3 productos más populares en cada región |
Domine las ideas de implementación del análisis Top3 de productos populares en cada región. Domine cómo crear conexiones Spark y leer conjuntos de datos Domina el uso de Spark para obtener datos comerciales. Domine los tipos de comportamiento al usar Spark para filtrar productos Domina el uso de Spark para convertir formatos de datos. Domina el uso de Spark para contar diferentes productos en cada región. Domina el uso de Spark para agrupar por región Domina el uso de Spark para ordenar según el número de vistas de productos en el área Domine la persistencia de datos en la base de datos HBase Domina la ejecución de programas a través de Spark On YARN |
la quinta parte: Estadísticas de tasa de conversión de sitios web |
Domine la idea de realización de las estadísticas de tasa de conversión de sitios web Aprenda a generar datos de navegación del usuario Domine cómo crear conexiones Spark y leer conjuntos de datos Domina el uso de Spark SQL para contar el número de visitas a cada página. Dominar el uso de Spark SQL para obtener el orden en el que cada usuario navega por las páginas web Domine el uso de Spark SQL para fusionar páginas web navegadas por el mismo usuario Domine el uso de Spark SQL para contar el número de cada salto Domine el uso de Spark SQL para calcular la tasa de conversión de un solo salto de la página Domine la persistencia de datos en la base de datos HBase 熟悉通过Spark On YARN运行程序 |