El primer paso en 2020 gran procesamiento de datos es para recopilar datos.

El primer paso en 2020 gran procesamiento de datos es para recopilar datos.

El primer paso es para recoger datos de procesamiento de datos de gran tamaño. Ahora se usa comúnmente en proyectos a gran escala micro arquitectura de servicio para el despliegue distribuido, por lo que deben ser recogidos en varios servidores de los datos, y el proceso de recolección no afecte el normal desarrollo de los negocios. Sobre la base de este requisito, que se deriva de una variedad de herramientas de recopilación de registros, tales como Canal de flujo, la recopilación de datos complejo Logstash similares, que se pueden configurar fácilmente y la terminación de la polimerización.

El almacenamiento de datos

Después de recoger los datos, la siguiente pregunta es: ¿Cómo se pueden almacenar los datos? Por lo general, es conocido los datos almacenados en MySQL, Oracle y otras bases de datos relacionales tradicionales, las características de estos base de datos tradicional es la capacidad de almacenar rápidamente los datos estructurados, y el apoyo para el acceso aleatorio. Sin embargo, una estructura de datos de gran tamaño de los datos es típicamente semi-estructurado (por ejemplo, datos de registro), aún no estructurados (por ejemplo, video, audio, datos), a fin de resolver el almacenamiento masivo de datos semi-estructuradas y no estructuradas, derivados de la Hadoop HDFS, KFS , GFS otros sistemas de archivos distribuidos, que son capaces de apoyo estructurado, tienda semi-estructurada y no estructurada de datos, y se puede ampliar mediante el aumento de la máquina lateralmente.

Sistema de archivos distribuido solución perfecta al problema de almacenamiento masivo de datos, sino un almacenamiento de datos buenos sistemas deben tener en cuenta el almacenamiento de datos y el acceso a dos cuestiones, por ejemplo, que desea ser capaz de realizar el acceso aleatorio a los datos, que es la base de datos relacional tradicional son buenos, pero los sistemas de archivos distribuidos no son buenas, entonces hay una solución de almacenamiento capaz de simultáneamente combina las ventajas de los sistemas de archivos distribuidos y bases de datos relacionales, en base a esta demanda, se crea HBase, MongoDB.

análisis de los datos

El primer paso en 2020 gran procesamiento de datos es para recopilar datos.

La parte más importante es la gran cantidad de datos de procesamiento de análisis de datos, análisis de datos se divide generalmente en dos tipos: de procesamiento por lotes y de procesamiento de flujo.

De lote: datos fuera de línea masivas más de tiempo para el tratamiento uniforme, hay un marco de proceso correspondiente Hadoop MapReduce, Spark, Flink similares;

procesamiento de flujo: Los datos se procesan en movimiento, es decir, se somete a tratamiento, mientras que la recepción de los datos, el marco de proceso correspondiente tiene Storm, Spark Streaming, Flink Streaming y similares.

Procesamiento por lotes cada corriente y su escenario de aplicación, el tiempo de los recursos de hardware limitados sensibles o no, se pueden emplear el procesamiento por lotes; requisitos de puntualidad de sensibles al tiempo y otro procesamiento de flujo de trabajo puede ser empleado. Con los precios del hardware del servidor cada vez menor y los requisitos de cada uno de puntualidad se han convertido en cada vez más exigente, el procesamiento de flujo cada vez más comunes, tales como proveedores de electricidad previsión de precios de acciones y análisis de datos operativos.

usos de los datos

Tras el análisis de los datos se ha completado, el siguiente paso es la aplicación de las categorías de datos, en función de sus necesidades reales del negocio. Por ejemplo, puede visualizar los datos muestran, o los datos utilizados para optimizar los algoritmos de recomendación, que utilizan muy común hoy en día, tales como recomendaciones a corto vídeo personalizado, proveedor de productos Recomendaciones de la electricidad, titulares y recomendar. Por supuesto, también puede utilizar los datos para la formación de sus modelos de aprendizaje automático, éstas son todas las áreas otras áreas, tienen una pila correspondiente marco y la tecnología para el procesamiento, donde parada aquí.

Secuencia de aprendizaje

Big Data umbral de aprendizaje es relativamente alto, en primer lugar tienen un cierto fundamento idioma

1.java

La mayor parte del marco de grandes volúmenes de datos utilizando el desarrollo del lenguaje Java, y casi todo el marco proporcionará una API de Java. Java es más convencional fondo lenguaje de desarrollo, recursos gratuitos de aprendizaje en línea será más.

2.scala

Scala es un conceptos de programación orientada a objetos y funcionales integrados tipos estáticos lenguaje de programación que se ejecuta en la máquina virtual de Java, se puede trabajar sin problemas con todas las bibliotecas de clases de Java, el famoso Kafka es utilizar el desarrollo del lenguaje Scala.

¿Por qué necesito para aprender el lenguaje Scala? Esto se debe a la actual plataforma de computación más caliente Flink y Spark ofrece un lenguaje Scala interfaz, lo utilizan para el desarrollo, menos que el código necesario para utilizar Java 8, Spark y Scala es el uso del lenguaje escrito, el aprendizaje Scala ayuda lata que una chispa de una comprensión más profunda.

Fundamentos de Linux

marcos grandes de datos se instala normalmente en servidores Linux, por lo que es necesario tener algunos conocimientos de Linux.

La construcción de herramientas

Debe dominar las herramientas de construcción automatizados son principalmente Maven. Maven en escena de grandes volúmenes de datos es relativamente común, sobre todo en los tres aspectos siguientes:

1. JAR paquete de gestión de proyectos, para ayudar a construir rápidamente aplicaciones de datos grandes;

2. Ya sea que su proyecto es utilizar el lenguaje Java o el desarrollo del lenguaje Scala, el tiempo de ejecución para presentar un entorno agrupado, es necesario utilizar Maven para el paquete de compilación;

3. La mayoría de los usos del marco de gestión de fuentes de datos grandes Maven llevan a cabo, cuando se necesita para compilar el código fuente del paquete de instalación, es necesario utilizar Maven.

Marco de aprendizaje

Nuestra sencilla Resumen de clasificación del marco:

marco de recopilación de registros: Canal de flujo, Logstash, Kibana

Sistema de almacenamiento de archivos distribuido: Hadoop HDFS

Sistemas de Base de Datos: mongodb, HBase

Distribuido plataforma de computación:

· Marco de lote: Hadoop MapReduce

· Marco de procesamiento de flujo: Tormenta

· Marco proceso de mezcla: Spark, Flink

Marco de análisis: Colmena, Spark SQL, SQL Flink, cerdo, Phoenix

administrador de recursos de clúster: Hadoop HILO

Servicios de coordinación distribuida: Zookeeper

Herramienta de migración de datos: Sqoop

Tarea marco de la programación: Azkaban, Oozie

implementación de clúster y seguimiento: Ambari, Director de Cloudera

Este listado corresponde más convencional marco de datos grande, la comunidad es muy activa, recursos de aprendizaje son más abundantes. Antes de empezar se recomienda para aprender de Hadoop, ya que es la piedra angular de todo el ecosistema de grandes volúmenes de datos, otros marcos son directa o indirectamente dependen de Hadoop. A continuación, puede aprender computación marco, Spark y Flink eras más marco procesamiento convencional híbrido, Spark aparecen relativamente pronto, por lo que su aplicación es más amplio. Flink hoy es el proceso de mezcla en caliente la mayor parte de una nueva generación de la trama, con un número de excelentes propiedades que han sido favorecidos por muchas empresas. Ambos pueden necesitar aprender de acuerdo a sus preferencias personales o de trabajo real.

Comisión de Gansu de Control Disciplinario de la carretera, convirtiendo todo en tela de juicio la responsabilidad del equipo de investigación está investigando punto, la Oficina de la Oficina de Estado emitió el país lucha contra el crimen contra las fuerzas del mal supervisan el programa de trabajo; Comisión de Shandong de Control Disciplinario del CSAC: detrás de la mala conducta disciplinaria vacuna investigada en el final; los EE.UU. contra China será el sistema en los Boeing 331 pedidos pendientes de entrega ;? la Comisión Municipal de Beijing de Control Disciplinario Zhang Shuo Fu fue trasladado al secretario del Comité Municipal del Partido de Guangzhou, Xian 734 o el documento se detuvieron las instituciones de formación y estudiantes de triaje adecuado; cómo los hombres azafata pena de rehenes? Abogado: Si el tiempo de inicio del incidente no lleva la responsabilidad penal; SAT TV dio instrucciones al agente investigador "yin y el yang contrato" cuestión;

Estados Unidos hace 15 años, este modo permite a Irak para "desaparecer" Ahora el Haoshi china que, el ex segundo jefe de la Armada, el viceministro Wang Dazhong transfiere a la Comisión Militar Central apoyo logístico; CNDR: China promoverá la interoperabilidad e instalaciones que rodean el Nacional de Energía, Ministerio de Asuntos Exteriores: Japón consultas de alto nivel sobre asuntos marítimos tendrá lugar en Sendai, Japón; nadador de Corea del Sur para disculparse fricción atletas chinos dos veces: no aceptadas; lo que las políticas de la introducción del programa de acción del proyecto Cumbre seca Shanghai tiene talento? ; Connotación pieza titulares de hoy fue cerrado vibrato comentarios también eliminado? ; De tren poco a poco "un día un precio" después de un viaje en tren a recoger a día;

Supongo que te gusta

Origin www.cnblogs.com/1654kjl/p/12569050.html
Recomendado
Clasificación