implementación de clúster y seguimiento: Ambari, Director de Cloudera

El primer paso en 2020 gran procesamiento de datos es para recopilar datos.

El primer paso es para recoger datos de procesamiento de datos de gran tamaño. Ahora se usa comúnmente en proyectos a gran escala micro arquitectura de servicio para el despliegue distribuido, por lo que deben ser recogidos en varios servidores de los datos, y el proceso de recolección no afecte el normal desarrollo de los negocios. Sobre la base de este requisito, que se deriva de una variedad de herramientas de recopilación de registros, tales como Canal de flujo, la recopilación de datos complejo Logstash similares, que se pueden configurar fácilmente y la terminación de la polimerización.

El almacenamiento de datos

Después de recoger los datos, la siguiente pregunta es: ¿Cómo se pueden almacenar los datos? Por lo general, es conocido los datos almacenados en MySQL, Oracle y otras bases de datos relacionales tradicionales, las características de estos base de datos tradicional es la capacidad de almacenar rápidamente los datos estructurados, y el apoyo para el acceso aleatorio. Sin embargo, una estructura de datos de gran tamaño de los datos es típicamente semi-estructurado (por ejemplo, datos de registro), aún no estructurados (por ejemplo, video, audio, datos), a fin de resolver el almacenamiento masivo de datos semi-estructuradas y no estructuradas, derivados de la Hadoop HDFS, KFS , GFS otros sistemas de archivos distribuidos, que son capaces de apoyo estructurado, tienda semi-estructurada y no estructurada de datos, y se puede ampliar mediante el aumento de la máquina lateralmente.

Sistema de archivos distribuido solución perfecta al problema de almacenamiento masivo de datos, sino un almacenamiento de datos buenos sistemas deben tener en cuenta el almacenamiento de datos y el acceso a dos cuestiones, por ejemplo, que desea ser capaz de realizar el acceso aleatorio a los datos, que es la base de datos relacional tradicional son buenos, pero los sistemas de archivos distribuidos no son buenas, entonces hay una solución de almacenamiento capaz de simultáneamente combina las ventajas de los sistemas de archivos distribuidos y bases de datos relacionales, en base a esta demanda, se crea HBase, MongoDB.

análisis de los datos

El primer paso en 2020 gran procesamiento de datos es para recopilar datos.

La parte más importante es la gran cantidad de datos de procesamiento de análisis de datos, análisis de datos se divide generalmente en dos tipos: de procesamiento por lotes y de procesamiento de flujo.

De lote: datos fuera de línea masivas más de tiempo para el tratamiento uniforme, hay un marco de proceso correspondiente Hadoop MapReduce, Spark, Flink similares;

procesamiento de flujo: Los datos se procesan en movimiento, es decir, se somete a tratamiento, mientras que la recepción de los datos, el marco de proceso correspondiente tiene Storm, Spark Streaming, Flink Streaming y similares.

Procesamiento por lotes cada corriente y su escenario de aplicación, el tiempo de los recursos de hardware limitados sensibles o no, se pueden emplear el procesamiento por lotes; requisitos de puntualidad de sensibles al tiempo y otro procesamiento de flujo de trabajo puede ser empleado. Con los precios del hardware del servidor cada vez menor y los requisitos de cada uno de puntualidad se han convertido en cada vez más exigente, el procesamiento de flujo cada vez más comunes, tales como proveedores de electricidad previsión de precios de acciones y análisis de datos operativos.

usos de los datos

Tras el análisis de los datos se ha completado, el siguiente paso es la aplicación de las categorías de datos, en función de sus necesidades reales del negocio. Por ejemplo, puede visualizar los datos muestran, o los datos utilizados para optimizar los algoritmos de recomendación, que utilizan muy común hoy en día, tales como recomendaciones a corto vídeo personalizado, proveedor de productos Recomendaciones de la electricidad, titulares y recomendar. Por supuesto, también puede utilizar los datos para la formación de sus modelos de aprendizaje automático, éstas son todas las áreas otras áreas, tienen una pila correspondiente marco y la tecnología para el procesamiento, donde parada aquí.

Secuencia de aprendizaje

Big Data umbral de aprendizaje es relativamente alto, en primer lugar tienen un cierto fundamento idioma

1.java

La mayor parte del marco de grandes volúmenes de datos utilizando el desarrollo del lenguaje Java, y casi todo el marco proporcionará una API de Java. Java es más convencional fondo lenguaje de desarrollo, recursos gratuitos de aprendizaje en línea será más.

2.scala

Scala es un conceptos de programación orientada a objetos y funcionales integrados tipos estáticos lenguaje de programación que se ejecuta en la máquina virtual de Java, se puede trabajar sin problemas con todas las bibliotecas de clases de Java, el famoso Kafka es utilizar el desarrollo del lenguaje Scala.

¿Por qué necesito para aprender el lenguaje Scala? Esto se debe a la actual plataforma de computación más caliente Flink y Spark ofrece un lenguaje Scala interfaz, lo utilizan para el desarrollo, menos que el código necesario para utilizar Java 8, Spark y Scala es el uso del lenguaje escrito, el aprendizaje Scala ayuda lata que una chispa de una comprensión más profunda.

Fundamentos de Linux

marcos grandes de datos se instala normalmente en servidores Linux, por lo que es necesario tener algunos conocimientos de Linux.

La construcción de herramientas

Debe dominar las herramientas de construcción automatizados son principalmente Maven. Maven en escena de grandes volúmenes de datos es relativamente común, sobre todo en los tres aspectos siguientes:

1. JAR paquete de gestión de proyectos, para ayudar a construir rápidamente aplicaciones de datos grandes;

2. Ya sea que su proyecto es utilizar el lenguaje Java o el desarrollo del lenguaje Scala, el tiempo de ejecución para presentar un entorno agrupado, es necesario utilizar Maven para el paquete de compilación;

3. La mayoría de los usos del marco de gestión de fuentes de datos grandes Maven llevan a cabo, cuando se necesita para compilar el código fuente del paquete de instalación, es necesario utilizar Maven.

Marco de aprendizaje

Nuestra sencilla Resumen de clasificación del marco:

marco de recopilación de registros: Canal de flujo, Logstash, Kibana

Sistema de almacenamiento de archivos distribuido: Hadoop HDFS

Sistemas de Base de Datos: mongodb, HBase

Distribuido plataforma de computación:

· Marco de lote: Hadoop MapReduce

· Marco de procesamiento de flujo: Tormenta

· Marco proceso de mezcla: Spark, Flink

Marco de análisis: Colmena, Spark SQL, SQL Flink, cerdo, Phoenix

administrador de recursos de clúster: Hadoop HILO

Servicios de coordinación distribuida: Zookeeper

Herramienta de migración de datos: Sqoop

Tarea marco de la programación: Azkaban, Oozie

implementación de clúster y seguimiento: Ambari, Director de Cloudera

Este listado corresponde más convencional marco de datos grande, la comunidad es muy activa, recursos de aprendizaje son más abundantes. Antes de empezar se recomienda para aprender de Hadoop, ya que es la piedra angular de todo el ecosistema de grandes volúmenes de datos, otros marcos son directa o indirectamente dependen de Hadoop. A continuación, puede aprender computación marco, Spark y Flink eras más marco procesamiento convencional híbrido, Spark aparecen relativamente pronto, por lo que su aplicación es más amplio. Flink hoy es el proceso de mezcla en caliente la mayor parte de una nueva generación de la trama, con un número de excelentes propiedades que han sido favorecidos por muchas empresas. Ambos pueden necesitar aprender de acuerdo a sus preferencias personales o de trabajo real.

tarifa aérea doméstica y un lugar para jugar hasta los precios del petróleo están empujando las manos; Tianjin recompensa corte dependen en gran medida los viejos cables de propiedad de hasta 1,81 millones de premio; Shanxi Oficina de Seguridad Pública, ex subdirector fue condenado a la vida: la tumba de albergar organización criminal; deslizamientos de tierra causados por la carretera Sichuan-Tíbet 318 State Road Tíbet Renbu interrupción del tráfico segmento (Figura); aviones del Ejército Popular de Liberación militar en la estación, "área de lucha contra el conocimiento" dominante respuesta a la "advertencia" de Taiwan; Beijing la tuberculosis se incluirá en el futuro el examen físico del recién nacido comprobará el proyecto; impacto de Qiongzhou estrecho en respuesta a la depresión tropical ro-ro corte de tren de pasajeros en suspensión; informe de la Comisión de Desarrollo y Reforma: los cargos de tráfico China se ubicó 53 en el mundo en niveles bajos;

Hung Chen Fujin a través de personal de los acusados por sospechas de malversación habían huido de los Estados Unidos 21 años; ciudades de primer nivel para comprar la agencia de bienes raíces en la víspera de la nueva normativa de aterrizaje etapas escena loca, este año, Beijing Haidian garantía para construir hasta seis distritos de la vivienda de la ciudad 50.000 unidades; Diario del Pueblo en el extranjero Edition: China Gran Apertura mundial buena; Beijing y Mongolia interior Distrito 16 condados en pares éstos acomodada; Daily Edición de Ultramar de la gente: los Estados Unidos insiste en el suspiro mundo; la parte superior 500 superordenador chino del mundo tiene 206 medios de comunicación de Taiwan y Estados Unidos: la construcción de la velocidad en los Estados Unidos; el viceministro de Comercio china yo no quiero pelear una guerra comercial con Estados Unidos;

implementación de clúster y seguimiento: Ambari, Director de Cloudera

Supongo que te gusta