¿Qué es Big Data?

En la etapa actual de desarrollo de la tecnología de Internet, se ha informatizado una gran cantidad de datos generados por el día a día, el trabajo y otros asuntos. La cantidad de datos generados por humanos se ha disparado en comparación con la etapa anterior. La tecnología tradicional de procesamiento de datos en el El pasado ya no es competente, y la demanda ha dado lugar a la tecnología., Surgió un conjunto de tecnologías utilizadas para procesar cantidades masivas de datos, esta es la tecnología de big data.
Para decirlo de otra manera, Big Data es:
hay una gran cantidad de datos,
existe la necesidad de una minería de datos masiva y existen herramientas para minar datos masivos (Hadoop, Spark, etc.)
. La aplicación específica de Big Data en la vida real,
el procesamiento de datos es la aplicación más típica.: Análisis del funcionamiento del producto de la empresa.
Sistema de recomendación de comercio electrónico: basado en datos de comportamiento de navegación masivo y comportamiento de compra, se realiza una gran cantidad de cálculos de modelos para sacar varias conclusiones de recomendación. el total de páginas de sitios web de comercio electrónico se utilizan para recomendar productos a los usuarios, (supongo) que te gusta)

Sistema de empuje publicitario preciso: basado en varios datos de usuarios masivos de Internet, análisis estadístico, retrato del usuario (obteniendo varias etiquetas de atributos de los usuarios) y luego publicidad dirigida y precisa para los anunciantes.

En pocas palabras, desde la perspectiva del ciclo de vida de Big Data, no hay más que cuatro aspectos: recopilación de Big Data, preprocesamiento de Big Data, almacenamiento de Big Data y análisis de Big Data, que en conjunto constituyen la tecnología central en la vida de Big Data. ciclo. Digamos por separado:

1. Recopilación de macrodatos

La recopilación de big data se refiere a la recopilación de datos masivos estructurados y no estructurados de diversas fuentes.
1. Recopilación de bases de datos: Sqoop y ETL son populares, y las bases de datos relacionales tradicionales MySQL y Oracle todavía sirven como métodos de almacenamiento de datos para muchas empresas. Por supuesto, para Kettle y Talend de código abierto, el contenido de integración de big data también está integrado, lo que puede realizar la sincronización e integración de datos entre hdfs, hbase y las bases de datos convencionales de Nosq.
2. Recopilación de datos de red: método de recopilación de datos que utiliza rastreadores web o API públicas de sitios web para obtener datos no estructurados o semiestructurados de páginas web y unificarlos en datos locales.
3. Recopilación de archivos: incluida la recopilación de archivos en tiempo real y el canal de tecnología de procesamiento, recopilación de registros basada en ELK y recopilación incremental, etc.

2. Procesamiento previo de macrodatos

El preprocesamiento de macrodatos se refiere a una serie de operaciones como "limpieza, llenado, suavizado, fusión, normalización y verificación de consistencia" en los datos sin procesar recopilados antes del análisis de datos, con el fin de mejorar los datos La calidad sienta las bases para el trabajo de análisis posterior. El preprocesamiento de datos incluye principalmente cuatro partes: limpieza de datos, integración de datos, conversión de datos y especificación de datos.
1. Limpieza de datos: se refiere al uso de herramientas de limpieza como ETL para procesar datos faltantes (atributos faltantes de interés), datos ruidosos (errores en los datos o datos que se desvían de los valores esperados) y datos inconsistentes.
2. Integración de datos: se refiere a la fusión y almacenamiento de datos de diferentes fuentes de datos en una base de datos unificada. El método de almacenamiento se enfoca en resolver tres problemas: coincidencia de patrones, redundancia de datos y detección y procesamiento de conflictos de valores de datos.
3. Conversión de datos: se refiere al proceso de procesar las inconsistencias en los datos extraídos. También incluye la limpieza de datos, es decir, la limpieza de datos anormales de acuerdo con las reglas comerciales para garantizar la precisión de los resultados de análisis posteriores.
4. Especificación de datos: sobre la base de mantener la apariencia original de los datos en la mayor medida posible, la operación de reducir la cantidad de datos en la mayor medida posible para obtener un conjunto de datos más pequeño, que incluye: agregación de partes de datos, especificación de dimensiones, datos compresión, especificación numérica, capas de concepto Espere.

Tres, almacenamiento de big data

El almacenamiento de big data se refiere al proceso de utilizar la memoria para almacenar los datos recopilados en forma de base de datos. Incluye tres rutas típicas:
1. El nuevo clúster de base de datos basado en la arquitectura MPP
adopta la arquitectura Shared Nothing, combinada con la eficiente distribución distribuida modo de computación de la arquitectura MPP. A través de una serie de tecnologías de procesamiento de big data, como el almacenamiento de columnas y la indexación de grano grueso, el enfoque está en los métodos de almacenamiento de datos desarrollados para la industria de big data. Con las características de bajo costo, alto rendimiento, alta escalabilidad, etc., tiene una amplia gama de aplicaciones en el campo de las aplicaciones de análisis empresarial.
En comparación con las bases de datos tradicionales, sus capacidades de análisis de datos de nivel PB basadas en productos MPP tienen ventajas significativas. Naturalmente, la base de datos MPP también se ha convertido en la mejor opción para una nueva generación de almacenamiento de datos empresarial.
2. Extensión y empaquetado
de tecnología basada en Hadoop . La extensión y empaquetado de tecnología basada en Hadoop está dirigida a datos y escenarios que son difíciles de procesar con bases de datos relacionales tradicionales (para almacenamiento y computación de datos no estructurados, etc.), utilizando las ventajas de código abierto de Hadoop. y características relacionadas (bueno en el manejo de datos semiestructurados y no estructurados, procesos ETL complejos, modelos de cálculo y minería de datos complejos, etc.), el proceso de derivar tecnología de big data relevante.
Con el avance de la tecnología, sus escenarios de aplicación se expandirán gradualmente. El escenario de aplicación más típico en la actualidad es realizar el soporte para el almacenamiento y análisis de big data de Internet mediante la expansión y encapsulación de Hadoop, que involucra docenas de tecnologías NoSQL.
3. Máquina todo en uno de Big Data
Esta es una combinación de software y hardware diseñada para el análisis y procesamiento de Big Data. Consiste en un conjunto de servidores integrados, dispositivos de almacenamiento, sistemas operativos, sistemas de administración de bases de datos y software preinstalado y optimizado para consulta, procesamiento y análisis de datos, tiene buena estabilidad y escalabilidad vertical.

Cuatro, análisis de big data y minería

Desde el análisis visual, el algoritmo de minería de datos, el análisis predictivo, el motor semántico, la gestión de la calidad de los datos, etc., el proceso de extracción, refinamiento y análisis de los datos caóticos.
1. Análisis visual El análisis
visual se refiere a un método de análisis que transmite y comunica información de forma clara y eficaz con la ayuda de medios gráficos. Se utiliza principalmente en análisis de asociación de datos masivos, es decir, con la ayuda de una plataforma de análisis de datos visual, el proceso de realizar análisis de asociación en datos heterogéneos dispersos y hacer cuadros de análisis completos.
Es simple, claro, intuitivo y fácil de aceptar.
2. Algoritmo
de minería de datos El algoritmo de minería de datos es un método de análisis de datos que intenta explorar y calcular datos mediante la creación de un modelo de minería de datos. Es el núcleo teórico del análisis de big data.
Hay muchos tipos de algoritmos de minería de datos, y diferentes algoritmos mostrarán diferentes características de datos debido a diferentes tipos y formatos de datos. Pero en términos generales, el proceso de creación de un modelo es similar, es decir, primero analiza los datos proporcionados por el usuario, luego busca tipos específicos de patrones y tendencias, y usa los resultados del análisis para definir los mejores parámetros para crear un modelo de minería. y aplicar estos parámetros en todo el conjunto de datos para extraer patrones factibles e información estadística detallada.
3. Análisis predictivo El análisis
predictivo es una de las áreas de aplicación más importantes del análisis de big data. Combina una variedad de funciones de análisis avanzadas (análisis estadístico especial, modelado predictivo, minería de datos, análisis de texto, análisis de entidades, optimización y análisis en tiempo real scoring)., Machine learning, etc.) para lograr el propósito de predecir eventos inciertos.
Ayude a los usuarios a analizar tendencias, patrones y relaciones en datos estructurados y no estructurados, y utilice estos indicadores para predecir eventos futuros y proporcionar una base para tomar medidas.
4. Motor semántico El motor
semántico se refiere a la operación de agregar semántica a los datos existentes para mejorar la experiencia de búsqueda de los usuarios en Internet.
5. La gestión de la calidad de los datos se
refiere a la identificación, medición, seguimiento, alerta temprana, etc. de varios problemas de calidad de los datos que pueden producirse en cada etapa del ciclo de vida de los datos (planificación, adquisición, almacenamiento, intercambio, mantenimiento, aplicación, extinción). , etc.) Una serie de actividades de gestión para mejorar la calidad de los datos.

Lo anterior es desde una gran perspectiva. Específicamente, existen muchas tecnologías marco para big data. Estas son algunas de ellas:
Almacenamiento de archivos: Hadoop HDFS, Tachyon, KFS
Computación sin conexión: Hadoop MapReduce, Spark
streaming, computación en tiempo real: Storm, Spark Streaming, S4, Heron
KV, bases de datos NOSQL: HBase, Redis, MongoDB
Gestión de recursos: YARN,
Colección de registros Mesos : Flume, Scribe, Logstash, Kibana
Sistema de mensajes: Kafka, StormMQ, ZeroMQ, RabbitMQ
Análisis de consultas: Hive, Impala, Pig , Presto, Phoenix, SparkSQL, Drill, Flink, Kylin, Druid
Servicios de coordinación distribuida:
Gestión y monitoreo de clústeres Zookeeper : Ambari, Ganglia, Nagios,
Minería de datos de Cloudera Manager , aprendizaje automático: Mahout, Spark,
sincronización de datos MLLib :
Programación de tareas Sqoop : Oozie
······

Big data: ¿que es big data?

¿Qué es Big Data?

1. Recopilación de macrodatos

2. Procesamiento previo de macrodatos

Tres, almacenamiento de big data

Cuatro, análisis de big data y minería

Supongo que te gusta