【Big Data】 Varios sentidos comunes que debe conocer antes de aprender a operar y mantener big data

Prefacio

Para aprender cualquier tecnología o habilidad, debe comprender algunas teorías relacionadas con esta habilidad, y cualquier tecnología necesita apoyo teórico; lo mismo que cualquier tecnología o habilidad necesita para comprender su historia.

Hoy analizamos algunas teorías relacionadas con big data

Teoría de la PAC

La teoría CAP significa que ningún sistema informático distribuido puede garantizar los siguientes tres puntos al mismo tiempo:

  • Coherencia: los datos de todos los nodos se mantienen sincronizados en todo momento.
  • Disponibilidad: cada solicitud puede recibir una respuesta, independientemente de si la respuesta es exitosa o no.
  • Tolerancia de partición: el sistema debe poder proporcionar servicios de forma continua independientemente de la falla de cualquier partición en la red.
    Inserte la descripción de la imagen aquí
    Toca la pizarra:

Un sistema distribuido no puede cumplir los tres requisitos de consistencia, disponibilidad y tolerancia de partición al mismo tiempo, y como máximo se pueden cumplir dos al mismo tiempo.

Consistencia fuerte: En cualquier momento, cualquier usuario puede leer los últimos datos actualizados
Consistencia monótona: En cualquier momento, una vez que un usuario lee el valor de un dato determinado después de una actualización determinada, no leerá más datos. El valor de este valor es más antiguo
Consistencia de sesión: una vez que un usuario lee el valor de un determinado dato después de una determinada actualización en una determinada sesión, esta sesión no leerá un valor anterior a este valor. .
Consistencia débil: los usuarios no pueden leer el último valor actualizado dentro de un cierto tiempo

Si elegimos una coherencia sólida y satisfacemos la tolerancia a fallos de la partición, inevitablemente sacrificaremos parte de la disponibilidad.

Nota:

  • La teoría CAP solo se aplica a sistemas distribuidos

Sistema distribuido típico de la teoría CAP

Elija CP: HBASE
elija AP: zookeeper, HDFS
elija CA: elasticsearch

Pila de tecnología de big data

  1. Capa de transmisión y adquisición de datos: flume. Logstash, sqoop, kafka, pulsar, HUE
  2. Capa de almacenamiento de datos: HBase, Kudu, HDFS,
  3. Capa de análisis de datos: Spark , flink, Storm, MapReduce , HIVE , Tez , pig , mahout, phoenix
  4. Motor OLAP: Druid, Kylin, lmpala, presto
  5. Gestión de recursos: hilo, kubernetes, mesos
  6. Programador de trabajos: Oozie, Azkaban
  7. Gestión de seguimiento: openTSDB, Ambari, ganglia
  8. Otro: cuidador del zoológico, gordito
  9. Almacenamiento de documentos: mongoDB, CouchDB

Big data: Foco en almacenamiento y procesamiento masivo de datos, básicamente en PaaS, plataforma como servicio
Computación en la nube : Foco en virtualización de recursos de hardware, básicamente en LaaS, infraestructura como servicio

Pero ahora Alibaba Cloud, Amazon Cloud y otras nubes públicas, y no solo venden recursos informáticos virtuales, sino que también involucran big data, reconocimiento de imágenes, bases de datos, seguridad en la nube, etc., por lo que la computación en la nube actual ha cubierto laaS, PaaS, SaaS y otros aspectos.

Además de distinguir según esta pila de tecnología, a veces según el grado de procesamiento de datos en tiempo real, se divide en: computación por lotes y tecnología en línea en tiempo real.
El cálculo por lotes es lo que a menudo llamamos cálculo fuera de línea. Procese una gran cantidad de datos a la vez, con gran rendimiento, pero alta latencia. Adecuado para escenarios como ETL de datos.

Escenarios de aplicación de big data

Recientemente, me conecté con una empresa y lo que hicieron fue un gran análisis de datos de Hehai Agricultural Data. Por ejemplo, muestre la precipitación de una determinada región de 2010 a 2020 y 10 años.

El tema más candente recientemente es el big data del tráfico, que recopila semáforos en tiempo real, sensores de dióxido de carbono, sensores de posición y velocidad del automóvil y datos de las redes sociales en línea para su análisis. Ayude a los pasajeros a volver a planificar la ruta y ahorre tiempo.

Las finanzas inteligentes en la industria financiera pueden analizar los datos de los clientes para proporcionar a los usuarios préstamos precisos o recomendar productos.

El ejemplo más popular de inteligencia artificial es AlphaGo de Google. La inteligencia artificial puede aprender de forma independiente y mejorar continuamente. Por supuesto, además del ajedrez, también hay reconocimiento facial, reconocimiento de voz, traducción automática, conducción no tripulada, robots inteligentes y otros campos que tienen un gran poder.

Historia de Big Data

Sonó el teléfono de una pizzería y el personal de atención al cliente descolgó el teléfono.

Atención al cliente: XXX Pizza Shop. Hola, ¿qué puedo hacer por ti?

Cliente: Hola, quiero una pizza

Servicio al cliente: Señor, dígame primero el número de su tarjeta de membresía.

Cliente: 16846146 ***.

Servicio al cliente: ¡Hola, Sr. Chen! Vive en la habitación 1205, piso 12, número 1 de Quanzhou Road. El número de teléfono de su casa es 2646 ****, el número de teléfono de su empresa es 4666 **** y su número de teléfono móvil es 1391234 ****. ¿Por qué teléfono quieres pagar?

Cliente: ¿Por qué conoce todos mis números de teléfono?

Servicio al cliente: Sr. Chen, porque estamos conectados al sistema CRM.

Cliente: Quiero una pizza de marisco ...

Servicio al cliente: Sr. Chen, la pizza de mariscos no es para usted.

Cliente: ¿Por qué?

Servicio al cliente: De acuerdo con sus registros médicos, su presión arterial y colesterol son altos.

Cliente: ¿Qué me puede recomendar?

Servicio al cliente: Puede probar nuestra pizza saludable baja en grasas.

Cliente: ¿Cómo supo que me gustaría comer esto?

Servicio al cliente: El lunes pasado pidió prestada una copia de "Recetas bajas en grasas y saludables" de la Biblioteca Central.

Cliente: Bueno. ¿Cuánto tengo que pagar por una pizza familiar extra grande?

Servicio al cliente: 99 yuanes, esto es suficiente para su familia de seis. Pero tu madre debería comer menos, ya que el mes pasado se sometió a una operación de bypass cardíaco y aún se está recuperando.

Cliente: ¿Puedo pasar la tarjeta?

Servicio al cliente: Sr. Chen, lo siento. Pague en efectivo, porque su tarjeta de crédito se ha agotado y todavía le debe al banco 4807 yuanes, y los intereses de la hipoteca no están incluidos.

Cliente: Primero voy al cajero automático cercano para retirar dinero.

Servicio al cliente: Sr. Chen, según sus registros, ha excedido el límite de retiro hoy.

Cliente: Olvídalo, puedes enviar la pizza a mi casa, hay efectivo en casa. ¿Cuánto tiempo vas a entregar?

Servicio al cliente: unos 30 minutos. Si no quiere esperar, puede montar su propia bicicleta.

Cliente: ¿Por qué?

Servicio al cliente: De acuerdo con los registros del sistema de rastreo automático de vehículos de nuestro sistema de posicionamiento global CRM. Ha registrado una motocicleta con el número de automóvil SB-748 y actualmente conduce esta motocicleta en el lado derecho del centro comercial Hualian en la sección este de Jiefang Road.

El cliente se desmayó inmediatamente. .

para resumir

Esta sección comprende principalmente los escenarios de aplicación de la teoría CAP y big data, de modo que tenga un concepto inicial de big data. Seguiremos los pasos para aprender más tarde.

Supongo que te gusta

Origin blog.csdn.net/xinshuzhan/article/details/108904375
Recomendado
Clasificación