Sistema de tecnología de big data (actualización a largo plazo)

preámbulo

Durante el período de 2018 a 2021, el autor leyó más de 200 libros y columnas relacionadas con big data.

Esta columna es el minucioso trabajo del autor basado en años de lectura de notas, combinado con su propia experiencia en el desarrollo de big data.

Al mismo tiempo, el autor también clasificó los documentos citados según el grado de recomendación personal.Para más detalles, consulte las Referencias.

Ven y presta atención, ¡muchas gracias!

inserte la descripción de la imagen aquí


Compañero de esta columna

inserte la descripción de la imagen aquí

100 preguntas para resolver el sistema teórico del big data

100 preguntas para resolver la máquina virtual Java

100 preguntas para resolver la concurrencia de Java


Estructura de directorios

inserte la descripción de la imagen aquí

HDFS(3.2.2)

  1. ¿Qué es Hadoop?
  2. ¿Por qué usar Hadoop?
  3. ¿Cuáles son las nuevas características de Hadoop3.x?
  4. ¿Cuál es la diferencia entre Hadoop1.x y Hadoop2.x?
  5. ¿Cuál es el objetivo de diseño de HDFS?
  6. ¿Cuáles son los requisitos de diseño de HDFS?
  7. ¿Qué es HDFS?
  8. ¿Qué opinas de la idea de diseño de HDFS?
  9. ¿Cuál es la diferencia entre HDFS y los sistemas de archivos ordinarios?
  10. Explicación gráfica detallada de la arquitectura HDFS
  11. ¿Cuál es el papel de SecondaryNameNode?
  12. ¿Qué es el mecanismo de latido del corazón de HDFS?
  13. ¿Cómo dividir archivos grandes en HDFS?
  14. ¿El conjunto de bloques es lo más grande posible? ¿El conjunto de bloques es lo más pequeño posible?
  15. ¿Qué son la alta disponibilidad y la federación de HDFS?
  16. ¿Qué son las instantáneas de HDFS?
  17. ¿Cuál es el principio de alta disponibilidad de HDFS?
  18. ¿Cuáles son los diseños tolerantes a fallas de HDFS?
  19. ¿Cuál es el proceso de lectura y escritura de HDFS?
  20. ¿Cómo elimina HDFS los datos?
  21. ¿Qué tiene de malo que HDFS almacene muchos archivos pequeños? ¿Cómo almacenar muchos archivos pequeños?
  22. ¿Qué es SequenceFile? ¿cómo utilizar?
  23. ¿Qué son los archivos de mapas HDFS?
  24. ¿Qué es la serialización de Hadoop?
  25. ¿Qué son los RPC de Hadoop?
  26. ¿Cuál es la estrategia de almacenamiento del bloque Block? ¿Cuál es la estrategia de colocación de réplicas de HDFS?
  27. ¿Qué es el mecanismo de replicación HDFS?
  28. ¿Qué es el reconocimiento de racks de HDFS?
  29. ¿Cuáles son las estrategias de equilibrio de carga de datos de HDFS?
  30. ¿Cómo cree que HDFS resuelve el problema del costo de almacenamiento causado por tres copias? ¿Qué es la tecnología de código de borrado de archivos de Hadoop3.x?
  31. ¿HDFS es compatible con el almacenamiento SSD?
  32. ¿Qué es la gestión de caché centralizada de HDFS?
  33. ¿Cuál es el proceso de inicio de HDFS?
  34. ¿Cómo realiza HDFS la administración de permisos?
  35. ¿Cómo realiza HDFS la gestión de cuotas?
  36. ¿Qué es el archivo de archivo (Archive) de HDFS?
  37. ¿Cómo entender el modelo de seguridad de HDFS?
  38. ¿Cómo garantizar la seguridad de los datos de HDFS?
  39. ¿Qué es la autenticación Kerberos para HDFS?
  40. ¿Cuáles son las operaciones de línea de comandos comúnmente utilizadas para HDFS?
  41. ¿Cómo escribir código HDFS?
  42. ¿Cómo transferir datos entre dos clústeres HDFS?
  43. ¿Cuáles son los requisitos del sistema operativo para los clústeres de Hadoop en entornos de producción?
  44. ¿Cómo sintonizar HDFS?
  45. ¿Cómo opera y mantiene HDFS?
  46. ¿Cómo lidiar con las excepciones comunes en HDFS?

MapReduce(3.2.2)

  1. ¿Qué es MapReduce? ¿Cuáles son las características?
  2. ¿Qué es el modelo de programación de MapReduce?
  3. ¿Por qué debería eliminarse MapReduce?
  4. ¿Flujo de trabajo de MapReduce?
  5. Explicación gráfica detallada de MapReduce en YARN
  6. ¿Cómo resolver el problema del sesgo de datos de MapReduce?
  7. ¿Cómo escribir código MapReduce?
  8. ¿Qué es un contador MapReduce (Contador)?
  9. ¿Cómo ajustar MapReduce?

HILO(3.2.2)

  1. ¿Cuál es la arquitectura de YARN? ¿Cuáles son los componentes principales de YARN?
  2. Cuéntame sobre tu comprensión del marco YARN.
  3. ¿Cuál es el proceso de envío de solicitudes de YARN?
  4. ¿Qué programadores hay en YARN?
  5. ¿Cuáles son los diseños de alta disponibilidad de YARN?
  6. ¿Cómo afinar YARN?
  7. ¿Cuáles cree que son las fallas en los esquemas de programación tradicionales de Yarn y Mesos? ¿Qué es Quasar?

inserte la descripción de la imagen aquí

Guardián del zoológico(3.7.0)

  1. Tutorial de instalación e implementación de Zookeeper 3.6.3
  2. ¿Qué es Zookeeper?
  3. ¿Cuáles son las características de ZooKeeper?
  4. ¿Cuáles son los escenarios de aplicación de ZooKeeper?
  5. ¿Cómo implementar bloqueos distribuidos con ZooKeeper?
  6. ¿Cuál es el mecanismo de elección de ZooKeeper?
  7. ¿Cuál es el mecanismo de vigilancia de ZooKeeper?
  8. Explicación detallada del algoritmo de Paxos

inserte la descripción de la imagen aquí

Colmena(3.1.2)

  1. ¿Cómo instalar e implementar Hive?
  2. ¿Qué es la colmena? ¿Cuáles son las características?
  3. ¿La diferencia entre Hive y la base de datos?
  4. ¿Cuál es la diferencia entre el modo de tiempo de lectura y el modo de tiempo de escritura de Hive?
  5. ¿Qué es la arquitectura del sistema Hive?
  6. ¿Cuáles son los tipos de datos de Hive?
  7. ¿Qué es el modelo de datos de Hive?
  8. ¿Cuál es la diferencia entre las tablas internas y externas de Hive?
  9. ¿Qué es la tabla de particiones de Hive?
  10. ¿Cómo funciona la colmena?
  11. ¿Cómo importar y exportar datos de Hive?
  12. ¿Qué es la partición estática y la partición dinámica de Hive?
  13. ¿Cuáles son las formas de asociar la tabla de particiones de Hive con los datos cargando directamente los datos en el directorio de particiones (hdfs)?
  14. ¿Son mejores más particiones en Hive?
  15. ¿Qué es la mesa de cubo de Hive? cual es el efecto
  16. ¿Puede la tabla de cubos de Hive importar datos a través de la carga directa?
  17. ¿Cuál es la diferencia entre la partición y el depósito de Hive?
  18. ¿Cuál es la diferencia entre ordenar por, ordenar por, distribuir por y agrupar por?
  19. ¿Se pueden escribir funciones agregadas después de ordenar por, por qué?
  20. ¿En qué circunstancias puede Hive evitar MapReduce?
  21. ¿Cómo elegir el formato de compresión de datos de Hive?
  22. ¿Cómo elegir el formato de almacenamiento de archivos de Hive?
  23. ¿Qué es SerDe de Hive?
  24. ¿Cómo resolver el escenario de segmentación de múltiples caracteres en Hive?
  25. ¿Cómo sintonizar Hive?

inserte la descripción de la imagen aquí

HBase(2.4.4)

  1. ¿Cómo instalar e implementar HBase?
  2. ¿Qué es HBase? ¿Cuáles son las características?
  3. ¿Cuál es la diferencia entre HBase y RDBMS?
  4. ¿Cuál es la arquitectura general de HBase?
  5. ¿Cuál es el modelo de datos de la tabla HBase?
  6. ¿Cuál es el principio de almacenamiento de datos de HBase?
  7. ¿Cuáles son los mecanismos al ras y compactos de HBase?
  8. ¿Cuál es el mecanismo de división de regiones de HBase?
  9. ¿Qué es el particionamiento previo de tablas HBase? ¿Por qué prepartición? ¿Cómo preparticionar?
  10. ¿Qué es el punto de acceso HBase? ¿Cómo resolver los puntos calientes de HBase?
  11. ¿Cómo entender los principios internos de HBase?
  12. ¿Cuál es el proceso de lectura y escritura de datos en HBase?
  13. Un artículo para entender BlockCache de HBase
  14. Un artículo para entender el Coprocesador de HBase
  15. Un artículo para entender el mecanismo BulkLoad de HBase
  16. Un artículo para entender el MSLAB de HBase
  17. Un artículo para comenzar con la API de Java de HBase
  18. ¿Cómo equilibra la carga HBase?
  19. ¿Cómo configurar el reintento de RPC del cliente HBase?
  20. ¿Cómo evita HBase el GC completo?
  21. ¿Qué razones pueden causar que el RegionServer de HBase se caiga?
  22. Las operaciones de Shell de HBase están todas disponibles

inserte la descripción de la imagen aquí

Canal (1.9.0)

  1. ¿Qué es Flume? ¿Cuáles son las características de Flume?
  2. ¿Qué es la arquitectura de Flume?
  3. ¿Cómo asegura Flume la confiabilidad?
  4. ¿Cuáles son los niveles de fiabilidad de Flume?
  5. ¿Cómo personaliza Flume Mysql Source?
  6. ¿Cómo personaliza Flume Mysql Sink?
  7. ¿Cómo implementa Flume la reanudación de datos?
  8. ¿Cuál es el caso de uso de Flume?

inserte la descripción de la imagen aquí

Sqoop (ha detenido el mantenimiento)

  1. ¿Qué es Sqoop?
  2. ¿Cuáles son los escenarios de uso de Sqoop?

inserte la descripción de la imagen aquí

Azkabán(3.30.1)

  1. ¿Por qué necesita un sistema de programación de flujo de trabajo?
  2. ¿Qué es Azkaban? ¿Cuáles son las características?
  3. ¿Cuál es la arquitectura básica de Azkaban?
  4. ¿Cuáles son los tres modos de implementación de Azkaban?

inserte la descripción de la imagen aquí

Kafka(2.8)

  1. ¿Por qué tener un sistema de cola de mensajes/motor de mensajes?
  2. ¿Qué es Kafka?
  3. ¿Por qué usar Kafka?
  4. ¿Cuáles son los conceptos centrales de Kafka?
  5. ¿Qué es la solución de implementación de clústeres en línea de Kafka?
  6. ¿Cuáles son los comandos comunes del clúster de Kafka?
  7. ¿Cuáles son los tres mecanismos del ack de Kafka?
  8. ¿Cómo mejorar el rendimiento del productor de Kafka?
  9. ¿Cómo asegurarse de que los mensajes de Kafka no se pierdan?
  10. ¿Cómo garantiza Kafka el orden de los mensajes?
  11. ¿Cómo lidiar con la acumulación de millones de mensajes de Kafka?
  12. ¿Cómo implementa Kafka la partición personalizada?
  13. ¿Cómo escribir el código de cliente de Kafka?
  14. ¿Qué son los algoritmos de compresión del productor Kafka?
  15. ¿Qué es el productor idempotente de Kafka?
  16. ¿Qué es el productor de transacciones de Kafka?
  17. ¿Cuál es la diferencia entre el Productor idempotente y el Productor transaccional de Kafka?
  18. ¿Cómo gestiona el productor Java de Kafka las conexiones TCP?
  19. ¿Cómo gestiona el consumidor Java de Kafka las conexiones TCP?
  20. ¿Qué son los interceptores de Kafka? ¿cómo utilizar?

inserte la descripción de la imagen aquí

Grande (1.13.2)

  1. ¿Comparación de marcos de computación de flujo?
  2. ¿Cómo implementar e instalar Flink?
  3. ¿Qué es Flink? ¿Cuáles son las características?
  4. ¿Cuál es el modelo de programación de Flink?
  5. ¿Qué es el módulo funcional de Flink?
  6. ¿Cuál es la arquitectura del sistema de Flink?
  7. ¿Cuáles son los modos de implementación de clúster de Flink?
  8. Un artículo para entender la Ventana de Flink
  9. Hermanos del tiempo de Flink
  10. Un artículo para entender el mecanismo de marca de agua de Flink
  11. Preservación y restauración del estado de Flink
  12. Proceso de envío de la sesión YARN de Apache Flink
  13. Proceso de envío por trabajo de Apache Flink
  14. Proceso de envío de la sesión K8s de Apache Flink

inserte la descripción de la imagen aquí

ALCE(6.7.0)

  1. ¿Cómo instalar y desplegar Elasticsearch?
  2. ¿Qué es ELK?
  3. ¿Cómo instalar el complemento elasticsearch-head?
  4. ¿Cuáles son los conceptos centrales de Elasticsearch?
  5. ¿Cómo administra Elasticsearch los índices?
  6. Un artículo para comenzar con las consultas de Elasticsearch
  7. ¿Cómo define Elasticsearch las asignaciones de tipo de campo?
  8. Solución de paginación de Elasticsearch
  9. Instalación y uso del separador de palabras chino IK de Elasticsearch

inserte la descripción de la imagen aquí

Maxwell

  1. ¿Qué es Maxwell?

inserte la descripción de la imagen aquí

Presto

  1. Un artículo sobre Presto

inserte la descripción de la imagen aquí

ClickHouse

¿Qué es ClickHouse? ¿Cuáles son las características de ClickHouse?


inserte la descripción de la imagen aquí

Kylin

  1. ¿Qué es Apache Kylin?
  2. ¿Cuáles son las características de Apache Kylin?
  3. ¿Qué pasa con la estimación de Apache Kylin?
  4. ¿Cuál es el flujo de trabajo de Apache Kylin?
  5. Un artículo para entender la arquitectura técnica de Apache Kylin 4.x

inserte la descripción de la imagen aquí

Kubernetes

  1. ¿Qué es Kubernetes?
  2. ¿Cuáles son las características de Kubernetes?
  3. Los conceptos centrales de Kubernetes se eliminan
  4. ¿Qué son los pods en Kubernetes?
  5. ¿Cuál es la arquitectura del sistema de Kubernetes?

inserte la descripción de la imagen aquí

CDH/CDP

  1. ¿Qué son los CDH/CDP?
  2. Cloudera Manager: herramienta integral de administración de centros de datos empresariales

inserte la descripción de la imagen aquí

Núcleo de chispa (3.3.0-INSTANTÁNEA)

Debido a que el autor ha estado estudiando el código fuente de Apache Spark, la versión del código fuente de Spark involucrada en la columna se basa en la rama maestra de github. El número de versión actual es: 3.3.0-SNAPSHOT

Explicación detallada del artículo Spark RDD

Spark RDD Paper Explicación detallada (1) Resumen e introducción

Spark RDD Paper Explicación detallada (2) RDD

Explicación detallada del artículo Spark RDD (3) Interfaz de programación Spark

Explicación detallada de los documentos Spark RDD (4) Expresando RDD

Spark RDD Paper Explicación detallada (5) Implementación

Spark RDD Paper Explicación detallada (6) Evaluación

Explicación detallada del artículo Spark RDD (7) Discusión

Explicación detallada del trabajo y finalización relacionados con el artículo Spark RDD (8)


Explicación detallada de la nueva función aleatoria basada en push en la versión Spark 3.2.0

Spark 3.2.0, nueva función, papel aleatorio basado en push, explicación detallada (1), resumen e introducción

Spark 3.2.0 nueva característica papel aleatorio basado en push explicación detallada (2) antecedentes y motivación

Spark 3.2.0 nueva característica papel aleatorio basado en push explicación detallada (3) diseño del sistema

Spark 3.2.0, nueva característica, papel aleatorio basado en push, explicación detallada (4) para lograr la optimización

Spark 3.2.0 nueva característica de papel aleatorio basado en push explicación detallada (5) resultados de evaluación

Spark 3.2.0 nueva característica de papel aleatorio basado en push explicación detallada (6) trabajo relacionado

Spark 3.2.0 nueva característica papel aleatorio basado en push explicación detallada (7) conclusión


ensayo

  1. ¿Cómo convertirse en colaborador de Apache Spark?
  2. Instalación e implementación de Spark 2.3
  3. ¿Por qué Spark es tan increíble?
  4. Los conceptos básicos de Spark Core están todos en una sola vez
  5. ¿Qué son los RDD?
  6. ¿Qué es SparkContext? cual es el efecto
  7. ¿Qué es SparkConf? cual es el efecto
  8. ¿Qué es SparkEnv? cual es el efecto
  9. ¿Qué es SecurityManager? cual es el efecto
  10. ¿Qué es DAGScheduler? cual es el efecto
  11. ¿Cómo divide DAGScheduler el escenario?
  12. ¿Cuál es el proceso de programación de DAGScheduler?
  13. ¿Qué es TaskScheduler? cual es el efecto
  14. Consulte Apache Spark para realizar la compilación híbrida maven de Java y Scala
  15. ¿Cómo unificar el estilo de código de Scala? Puedes copiar esta configuración de scalastyle sin pensar
  16. Consulte el código fuente de Apache Spark para personalizar la implementación de la herramienta de impresión de registros Logging
  17. ¿Error al compilar el código fuente de Apache Spark? Eso es porque omitiste la operación clave.
  18. Implementación de regresión lineal con Spark MLlib
  19. Usando Spark GraphX ​​para implementar el algoritmo PageRank
  20. Nueva función de Spark 3.0: programación de tareas con reconocimiento de acelerador
  21. Resumen de las excepciones de Spark

Spark SQL (3.3.0-INSTANTÁNEA)

Funciones integradas de Spark SQL

Funciones integradas de Spark SQL (1) Funciones de matriz (basadas en Spark 3.2.0)

Funciones integradas de Spark SQL (2) Funciones de mapa (basadas en Spark 3.2.0)

Funciones integradas de Spark SQL (3) Funciones de fecha y marca de tiempo (basadas en Spark 3.2.0)

Funciones integradas de Spark SQL (4) Funciones JSON (basadas en Spark 3.2.0)

Funciones integradas de Spark SQL (5) Funciones agregadas (basadas en Spark 3.2.0)

Funciones integradas de Spark SQL (6) Funciones de ventana (basadas en Spark 3.2.0)


Spark SQL functions.scala análisis de código fuente

Spark SQL functions.scala análisis de código fuente (1) Ordenar funciones (basado en Spark 3.3.0)

Análisis de código fuente Spark SQL functions.scala (2) Funciones agregadas (basadas en Spark 3.3.0)

Spark SQL functions.scala análisis de código fuente (3) Funciones de ventana (basado en Spark 3.3.0)

Análisis de código fuente Spark SQL functions.scala (4) Funciones no agregadas (basadas en Spark 3.3.0)

Spark SQL functions.scala análisis de código fuente (5) Funciones matemáticas (basado en Spark 3.3.0)

Spark SQL functions.scala análisis de código fuente (6) Funciones misceláneas (basado en Spark 3.3.0)

Spark SQL functions.scala análisis de código fuente (7) Funciones de cadena (basado en Spark 3.3.0)

Análisis de código fuente Spark SQL functions.scala (8) Funciones DateTime (basadas en Spark 3.3.0)

Análisis de código fuente Spark SQL functions.scala (9) Funciones de colección (basadas en Spark 3.3.0)

Spark SQL functions.scala análisis de código fuente (10) Funciones de transformación de partición (basado en Spark 3.3.0)

Análisis de código fuente Spark SQL functions.scala (11) Funciones Scala UDF (basado en Spark 3.3.0)

Análisis de código fuente Spark SQL functions.scala (12) Funciones Java UDF (basadas en Spark 3.3.0)


Análisis del código fuente del flujo de trabajo de Spark SQL

Descripción general del análisis del código fuente del flujo de trabajo de Spark SQL (1) (basado en Spark 3.3.0)

Análisis del código fuente del flujo de trabajo de Spark SQL (2) etapa de análisis (basado en Spark 3.3.0)

Análisis del código fuente del flujo de trabajo de Spark SQL (3) etapa de análisis (basado en Spark 3.3.0)

Etapa de optimización del análisis del código fuente del flujo de trabajo de Spark SQL (4) (basado en Spark 3.3.0)

Etapa de planificación del análisis del código fuente del flujo de trabajo de Spark SQL (5) (basado en Spark 3.3.0)


ensayo

  1. ¿Cómo se desarrolló Spark SQL?
  2. ¿Qué es Spark SQL?
  3. ¿Qué hace Spark SQL?
  4. ¿Qué es el modelo de programación DataFrame?
  5. ¿Cuál es la diferencia entre RDD y DataFrame?
  6. Interpretación de Dataset desde la perspectiva del código fuente de Spark
  7. Hablando sobre la idea de Spark SQL para realizar la gestión de calidad de tareas
  8. ¿Cómo usar Dataset.show en Spark? ¿Cuáles son los lugares dignos de mención?
  9. Mecanismo AQE de Spark SQL
  10. ¿Cómo personaliza Spark SQL las extensiones?
  11. ¿Qué tipos de JOIN admite Spark SQL?
  12. ¿Cómo elige Apache Spark la estrategia JOIN?
  13. ¿Qué es la API de catálogo de tablas de la versión Spark 3.x?
  14. Análisis de código fuente del mecanismo WSCG de Spark 3.x
  15. Análisis de código fuente del sistema de intercambio Spark 3.x
  16. Un artículo para aprender el desarrollo de código de lectura y escritura de datos de Spark
  17. Un artículo para entender el CacheManager de Spark 3.x
  18. Un artículo para entender el sistema de Catálogo de Spark 3.x

Referencias (ordenadas por recomendación)

inserte la descripción de la imagen aquí

Los documentos oficiales deben leerse primero, las columnas de Geek Time no están mal, ¡y las mejores listas de recomendaciones de libros son muy recomendables!
No hay necesidad de leer los últimos nombres, solo cité algunas palabras, así que las agregué.
Las citas de blog no están incluidas en las clasificaciones de la lista recomendada
y se actualizarán a medida que se actualice la columna ~

  1. Documentación oficial de Hadoop 3.2.2
  2. Spark 3.1.2 Documentación oficial
  3. Documentación oficial de Kafka 2.8
  4. HBase 2.4.4 Documentación oficial
  5. Colmena 3.1.2 Documentación oficial
  6. Columna Geek Time "Tecnología central de Kafka y combate real" Hu Xi
  7. Columna Geek Time "Aprender Big Data desde 0" Li Zhihui
  8. Columna Geek Time "Combate real de procesamiento de datos a gran escala" Cai Yuannan
  9. Columna Geek Time "Principios básicos de Spark y combate práctico" Wang Lei
  10. "Explicación detallada de la arquitectura de Big Data: desde la adquisición de datos hasta el aprendizaje profundo" editado por Zhu Jie y Luo Hualin
  11. "Chispa ilustrada: tecnología central y práctica de casos" editado por Guo Jingzhan
  12. "Análisis del kernel Spark SQL" Zhu Feng, Zhang Shaoquan, Huang Ming
  13. "Spark Big Data Business Practice Trilogy: Kernel Decryption Business Case Performance Tuning 2nd Edition" editado por Wang Jialin, Duan Zhihua, Xia Yang
  14. "El arte del diseño Spark Kernel: diseño e implementación de la arquitectura" por Geng Jia'an
  15. "Hadoop Experts: Management, Tuning, and Spark YARN HDFS Security" (EE. UU.) por Sam R. Alapati, traducido por Zhao Guoxian y otros
  16. "Guía definitiva de Hadoop (tercera edición)" (EE. UU.) White (White, T.); Traducido por la Facultad de ciencia e ingeniería de datos, Universidad Normal de China Oriental
  17. "Enterprise Data Lake" (India) Tomcy John (Tomcy John), (India) Pankaj Misra (Pankaj Misra); Traducido por Zhang Shiwu, Li Xiang, Zhang Haolin
  18. "Spark Kernel Mechanism Analysis and Performance Tuning" editado por Wang Jialin y otros
  19. "Procesamiento masivo de datos de Hadoop: explicación técnica detallada y práctica del proyecto, 2.ª edición" por Fan Donglai
  20. "Explicación detallada del sistema de tecnología Big Data: principios, arquitectura y práctica" por Dong Xicheng
  21. "Principios y aplicaciones de la tecnología de Big Data de Hadoop" escrito por Dark Horse Programmer
  22. "Extracción de macrodatos de Hadoop desde el inicio hasta la práctica avanzada: versión didáctica en video" editado por Deng Jie
  23. "Práctica de desarrollo de Big Data de Hadoop & Spark" editado por Xiao Rui y Lei Gangyue
  24. "Desarrollo y aplicación de Big Data" editado por Qingdao Yinggu Education Technology Co., Ltd., Shandong Business and Technology College
  25. "Tecnología Hadoop y análisis de aplicaciones en la era de los grandes datos" por Wei Pengcheng, Shi Chengxiang, Cai Yinying
  26. "De Paxos a Zookeeper: principios y práctica de consistencia distribuida" por Ni Chao
  27. "Tecnología de big data e investigación de aplicaciones" por Hu Pei, Han Pu
  28. "Tecnología de big data y práctica de aplicaciones en la era de la nube" Zhu Lihua
  29. "Tecnología Big Data y aplicación en computación en la nube" por Liang Fan
  30. "Introducción a la tecnología Big Data" editado por Chen Ming
  31. Editor en jefe Lou Yan de "Fundamentos de aplicaciones de Big Data"
  32. "Análisis de grandes datos de Hadoop" editado por Gao Shuibin, Qian Lianghong, Fang Zhijun
  33. Editor en jefe Zhu Yangyong de "Recursos de Big Data"
  34. "Construcción y operación y mantenimiento del entorno de alta disponibilidad de Big Data" editado por Tianjin Binhai Xunteng Technology Group Co., Ltd.
  35. Uso de MapReduce-Counter: realice rápidamente las estadísticas del número de líneas en archivos grandes

Supongo que te gusta

Origin blog.csdn.net/Shockang/article/details/117266839
Recomendado
Clasificación