Introducción a Big Data y plataforma Hadoop

definición

Los macrodatos se refieren a un conjunto de datos cuyo tamaño y complejidad no se pueden capturar, administrar y procesar dentro de un límite de tiempo aceptable a un costo razonable a través de las herramientas y el software de uso común existentes. Estas dificultades incluyen ingresos de datos, almacenamiento, búsqueda, intercambio, análisis y visualización. Los macrodatos deben cumplir tres características básicas (3V), volumen, variedad y velocidad. La cantidad de datos se refiere a la cantidad de datos a procesar por big data, que generalmente alcanza el nivel de TB o incluso PB. La diversidad de datos significa que los datos procesados incluyen datos estructurados, datos no estructurados (video, audio, páginas web) y datos semiestructurados (xml, html). Alta velocidad significa que los macrodatos deben poder fluir rápidamente y procesarse rápidamente.

Fondo de desarrollo de big data

Explosión de datos. Con la aplicación de la tecnología de la información, la cantidad de datos globales ha aumentado exponencialmente. La cantidad total de datos en los últimos años ha superado la cantidad total de datos en la historia de la humanidad. Los chips, las cámaras y sus respectivos sensores se encuentran en todos los rincones del mundo, y las cosas que no se pueden detectar se pueden monitorear. El avance continuo de la tecnología de software y hardware también crea las condiciones para procesar big data.

Áreas de aplicación de big data

En el dominio público, la provisión interdepartamental de servicios de big data puede reducir en gran medida el tiempo de recuperación y procesamiento. Mejorar la eficiencia de los servicios públicos.
Las empresas pueden mejorar el rendimiento del producto recopilando y analizando los datos masivos generados durante el uso del producto.
Los macrodatos pueden ayudar a las empresas a diferenciar a los usuarios de manera más detallada y proporcionar servicios personalizados para las diferentes necesidades de los usuarios. Este es un método comúnmente utilizado en marketing y gestión de crisis.
Utilice algoritmos automatizados para respaldar o reemplazar la toma de decisiones manual. El análisis de big data puede mejorar enormemente los efectos de la toma de decisiones, reducir los riesgos y descubrir información valiosa que no se puede descubrir con otros métodos.
Modelo de negocio, innovación de productos y servicios. Netflix produjo "House of Cards" basándose en los resultados del análisis de big data.

Temas de investigación de big data

Problema de adquisición de datos. Incluyendo qué datos deben guardarse, qué datos deben descartarse y cómo almacenar de manera confiable los datos que necesitamos.
Problemas de estructura de datos. El blog de Weibo contiene datos no estructurados. Las imágenes y los videos tienen una estructura de almacenamiento y visualización, pero no pueden contener información semántica para su recuperación. Si el contenido que no tiene semántica se convierte a un formato estructurado y se realiza un procesamiento posterior, otro desafío que debe enfrentarse.
Problemas de integración de datos. Solo mediante la vinculación de datos de diferentes fuentes se pueden utilizar plenamente los datos.
Análisis, organización, extracción y modelado de datos
Cómo presentar los resultados del análisis

Productos de big data para empresas de tecnología

Google: MapReduce
IBM: Plataforma de análisis de Big Data InfoSphere
SAS: servidor de análisis de alto rendimiento y motor de procesamiento de flujo de datos SAS DataFlux
EMC: Greenplum admite un procesamiento paralelo masivo
Teradata: Aster Data se basa en MapReduce y proporciona una variedad de paquetes de software estadístico

Tendencia de desarrollo de big data

Recursos de datos. El Big Data se ha convertido en un recurso estratégico importante al que las empresas y la sociedad prestan atención, y se ha convertido en el foco de la lucha de todos.
Profundamente integrado con la computación en la nube. Big data es inseparable del procesamiento en la nube, que proporciona servicios básicos flexibles y expandibles para big data.
Impulse avances en la teoría científica. Promover el desarrollo de tecnologías relacionadas como minería de datos, aprendizaje automático, inteligencia artificial y ciencia de datos.

Pasos generales para el procesamiento de big data

Recopilación de datos.
La primera forma es gatear o gatear. Por ejemplo, un motor de búsqueda hace esto: descarga toda la información de Internet en su centro de datos y luego puede buscarla.
El segundo método es push, hay muchos terminales que pueden ayudarme a recopilar datos. Por ejemplo, la pulsera Xiaomi puede cargar sus datos de funcionamiento diario, datos de latidos del corazón y datos de sueño en el centro de datos.
La transmisión de datos
generalmente se realiza a través de la cola, debido a que la cantidad de datos es demasiado grande, los datos que se deben procesar serán útiles. Pero el sistema no podía manejarlo, así que tuve que alinearme y lidiar con eso lentamente.
Almacenar el
almacenamiento de datos para garantizar una alta tolerancia a fallos, segura y fácil de perder.
El procesamiento y análisis de datos de
los datos almacenados son datos sin procesar, los datos sin procesar de una pluralidad de datos desorganizados, hay muchos datos basura en ellos y, por lo tanto, deben limpiarse y filtrarse para proporcionar datos de alta calidad. Para obtener datos de alta calidad, puede analizarlos para clasificar los datos o descubrir la relación entre los datos y obtener conocimiento.
Recuperación de datos y extracción de
la información deseada fácilmente buscable. Explotando la relación entre información.

Marco de código abierto

Debido a estas características de los macrodatos, se han generado muchos marcos de código abierto para su recopilación, transmisión, almacenamiento, procesamiento, análisis y recuperación.	Caracteristicas	cuadro
Almacenamiento de archivos	Hadoop HDFS 、 Tachyon 、 KFS
Cálculo sin conexión	Hadoop MapReduce 、 Spark
Streaming, computación en tiempo real	Tormenta 、 Spark Streaming 、 S4 、 Heron
Base de datos KV, NOSQL	HBase, Redis, MongoDB
Administracion de recursos	YARN, Meses
Recolección de registros	Flume 、 Escriba 、 Logstash 、 Kibana
Sistema de mensajes	Kafka 、 StormMQ 、 ZeroMQ 、 RabbitMQ
Análisis de consultas	Hive 、 Impala 、 Pig 、 Presto 、 Phoenix 、 SparkSQL 、 Drill 、 Flink 、 Kylin 、 Druid
Servicio de coordinación distribuida	Zookeeper
Gestión y seguimiento de clústeres	Ambari 、 Ganglia 、 Nagios 、 Cloudera Manager
Minería de datos, aprendizaje automático	Mahout 、 Spark MLLib
Sincronización de datos	Sqoop
Programación de tareas	Oozie

El marco de una plataforma general de big data es como se muestra en la siguiente figura:
Introducción a Big Data y plataforma Hadoop
Hadoop HDFS y Hadoop MapReduce, como pioneros del almacenamiento y procesamiento de big data, son el núcleo de la plataforma de big data. Estos son los principios básicos de los dos marcos.

Principios básicos de Hadoop HDFS

HDFS son las siglas de Hadoop Distributed File System. HDFS es un sistema de archivos distribuido que se puede implementar en un clúster de servidores. El desarrollo del lenguaje Java se puede implementar en cualquier máquina que admita Java.
HDFS tiene varios conceptos básicos: NameNode, DataNode y block.
El NameNode es responsable de la gestión de metadatos de todo el sistema de archivos distribuido, es decir, el nombre de la ruta del archivo, el ID del bloque de datos y la ubicación de almacenamiento. Es necesario registrar algunas cosas, como qué nodos forman parte del clúster y cuántas copias de un bloque.
Introducción a Big Data y plataforma Hadoop
DataNode es el nodo que realmente almacena datos de archivos. El DataNode mantiene la comunicación con el NameNode a través del latido. Si el DataNode no envía un latido después de un tiempo de espera, el NameNode pensará que el DataNode ha fallado e inmediatamente descubrirá qué bloques están almacenados en el DataNode y en qué servidores aún se almacenan, y luego notificará a estos servidores Copie otro bloque a otro servidor para asegurarse de que el número de copias de seguridad de bloques almacenadas en HDFS coincida con el número establecido por el usuario. Incluso si otro servidor deja de funcionar, los datos no se perderán.
Introducción a Big Data y plataforma Hadoop
El bloque es una unidad de almacenamiento en HDFS. Cuando un archivo se escribe en HDFS, se divide en varios bloques de bloques. El tamaño de bloque predeterminado es de 128 MB y cada bloque de datos tiene tres copias por defecto.

Escritura de datos: Primero, divida el archivo en varios bloques y cada bloque se escribirá en tres DataNodes. El NameNode especifica cuál de los tres DataNodes se escribe. Una vez completada la escritura, NameNode registrará la información. Se pueden escribir diferentes bloques en el mismo archivo en DataNodes completamente diferentes.
Introducción a Big Data y plataforma Hadoop
Lectura de datos: al leer datos, presione bloquear para leer. Para cada bloque, obtendrá información del NameNode y sabrá desde qué DataNode leer. Generalmente, es el principio más cercano. Se leen todos los bloques del archivo, formando un archivo completo.
Y la máquina cliente de Datanode es la misma: la distancia es 0, indica que el
cliente más reciente Datanode son máquinas diferentes y el mismo rack: distancia de 2, un poco más de
cliente está en diferentes racks y Datanode mismo centro de datos: La distancia es 4, un poco más lejos

Principios básicos de Hadoop MapReduce

Hadoop MapReduce es un marco informático distribuido en el que las operaciones se pueden realizar en paralelo en varias máquinas. El usuario solo necesita completar la codificación de la operación en sí, y no necesita preocuparse por los detalles subyacentes de la computación en paralelo.
La idea detrás de MapReduce es muy simple, es clasificar algunos datos a través de Map y procesar el mismo tipo de datos a través de Reduce. Los procesos de mapeo y reducción se ejecutan en paralelo utilizando la potencia informática del clúster. El núcleo del modelo de cálculo son las funciones Mapa y Reducir, que son implementadas por los usuarios.
Introducción a Big Data y plataforma Hadoop
Cuando se corta el conjunto de datos grande original en conjuntos de datos pequeños, normalmente el conjunto de datos pequeño es menor o igual al tamaño de un bloque de HDFS, por lo que un conjunto de datos pequeño se ubica en una máquina física, lo cual es conveniente para el cálculo local. El usuario puede especificar el número de tareas de inicio para Mapa y Reducir.
Introducción a Big Data y plataforma Hadoop
La figura anterior muestra un proceso de MapReduce contando el número de ocurrencias de palabras. Los datos originales se dividen en 4 subarchivos. Para cada subarchivo, se generará un resultado en forma de <k2, v2> de <palabra, número de ocurrencias> de acuerdo con la función Map del usuario. Luego combine <k2, v2> de la misma palabra para formar la forma de <k2, List (v2)>, como entrada de la función Reducir, el mismo k2 debe distribuirse a la misma tarea Reducir para su procesamiento, por ejemplo, todos los cálculos de la palabra lorem son Completado por la primera tarea Reducir. De acuerdo con esta idea, incluso si el número de archivos a contar es decenas de millones y el número de palabras es de varios miles, con el marco MapReduce, siempre que haya suficientes máquinas de clúster, el cálculo se puede completar en un tiempo aceptable.

Aplicación de la industria de Big Data

Internet: publicidad dirigida, análisis del comportamiento del usuario, recomendación de contenido, optimización de motores de búsqueda
Finanzas: lucha contra el blanqueo de capitales, lucha contra el fraude, análisis del valor del cliente, agrupación de clientes del mercado objetivo, previsión de la capacidad de pago, análisis de tendencias de la cartera de inversiones en acciones
Telecomunicaciones: optimización del diseño empresarial, predicción de la rotación de clientes, optimización de la calidad de la red
Atención médica y sanitaria: comparación de datos clínicos, apoyo a la toma de decisiones, análisis del comportamiento médico, análisis de patrones de enfermedades
Seguridad pública: análisis de predicción de conductas sospechosas, detección de actividades terroristas, análisis de riesgos, análisis de partes relacionadas
Transporte inteligente: datos masivos generados por todo el sensor, GPS y equipo de video de salud, combinados con datos de condiciones climáticas, datos de distribución de población y datos de comunicación móvil de equipos de monitoreo meteorológico para realizar un transporte público inteligente.

Desafíos en la promoción

Algunas organizaciones tienen el monopolio absoluto de los datos y la mayoría de los datos se concentran dentro de estas organizaciones. Al igual que los datos de enfermedades raras, solo a través de mecanismos y plataformas compartidos podemos ayudar a los pacientes.
Las aplicaciones de Big Data deben basarse en la premisa de respetar la privacidad del usuario. Al mismo tiempo, cómo equilibrar la apertura y la innovación de los datos es un tema importante que enfrenta la industria de Big Data. Las empresas utilizan big data para comprender las características y necesidades de los usuarios y deben respetar plenamente sus derechos de privacidad.
La arquitectura de big data existente no puede garantizar que los datos en sí mismos no sean manipulados, restringiendo así los escenarios de aplicación que requieren confianza y confirmación. Para datos como el crédito, si no hay forma de garantizar la autenticidad de los datos, es difícil usarlos en el proceso de toma de decisiones de las agencias relevantes.