Introducción al proyecto educativo de Zhixing

Proyecto 1: Proyecto de almacén de datos de Big Data

Nombre del proyecto: Proyecto de almacén digital educativo de Zhixing

Estructura del proyecto:

Fuente de datos: los datos de los sistemas OLTP como la teleconsulta, la enseñanza offline, la educación online, etc., se almacenan mayoritariamente en mysql.
Extracción de datos: use sqoop para lograr una sincronización bidireccional entre bases de datos relacionales y clústeres de big data. Almacenamiento de
datos: limpieza de datos HDFS: limpieza de datos, conversión, análisis estadístico, etc. se realizan utilizando Hive basado en la gestión de CM.
Análisis de datos: la limpieza, conversión, análisis estadístico, etc. de los datos se realizan utilizando Hive basado en la gestión de CM.
Sincronización de datos: use sqoop para lograr una sincronización bidireccional entre bases de datos relacionales y clústeres de big data. Servicio de datos OLAP: se utiliza la base de datos Mysql de uso común.

Inserte la descripción de la imagen aquí

Entorno de desarrollo:
jdk: Jdk1.8
Scala: 2.11.8
CDH6.2.1: zookeeper-3.4.5-cdh6.2.1, hadoop-3.0.0-cdh6.2.1, hive-2.1.1-cdh6.2.1, hive-4.3 .0-cdh6.2.1
Sqoop: sqoop-1.4.7-cdh6.2.1
Mysql: 5.7
Zeppelin: 0.8.0

Descripción del Proyecto:

受互联网+概念的催化,教育市场发展火热,越来越多的教育机构和平台不断涌现,包括有线上学习和线下培训,K12教育和职业教育等,那些注重用户服务、教育质量的平台会最终胜出。目前的企业痛点:
1.数据量大,现有MySQL业务数据库直接读取模式不能满足业务统计性能、效率需要
2.系统多、数据分散,缺少从营销、咨询、报名、教学等等完整业务环节的数据贯通
3.统计分析难度高、工作量大。缺少元数据、数据集合的规范存储,业务部门有数据分析角度需求时,需要程序员、DBA突击查数据、做报表,尤其年底各个部门排队等DBA协助出数据 		如何提高用户服务水平,提高教育质量是每个机构都面临的问题。信息的共享和利用不充分,就导致尽管学校多年的信息化应用积累了大量的数据,但信息孤岛的壁垒一直没有打破,对这些数据无法进一步的挖掘、分析、加工、整理,不能给学校教育、教学、研发、总务等各方面管理决策提供科学、有效的数据支撑。

La aplicación de la tecnología de big data puede extraer y analizar datos masivos del comportamiento de los usuarios, optimizar la calidad del servicio de la plataforma de acuerdo con los resultados del análisis y finalmente satisfacer las necesidades de los usuarios. El proyecto de la plataforma de análisis de big data educativo consiste en aplicar la tecnología de big data al campo de la educación y la capacitación para proporcionar soporte de datos para las operaciones comerciales:
1. Establecer un almacén de datos grupal, unificar el centro de datos grupal y preprocesar y almacenar negocios dispersos. datos
2. Según las necesidades del negocio Analizar, realizar minería y análisis de datos de comportamiento de usuarios masivos, personalizar recopilaciones de datos multidimensionales para formar mercados de datos para su uso en varios escenarios y temas
3. Selección y control de visualización de datos comerciales de front-end, seleccionar herramienta adecuada de visualización de resultados de análisis y estadísticas de datos frontales

Requerimientos del proyecto:

4. Requisitos del negocio de educación en línea
4.1 Acceder y consultar tableros de datos de usuarios
4.2 Tableros de usuarios intencionales
4.3 Tableros de pistas efectivos
44 Tableros de usuarios de registro
4.5 Tableros de asistencia de estudiantes

Descripción de la responsabilidad:
1. Participar en el análisis preliminar del proyecto, diseñar la arquitectura general del sistema
2. Diseño de adquisición de datos, diseño de piezas de procesamiento en tiempo real
3. Strom escribe el significado sustancial del diseño de escritura por lotes
Hbase 4. Hbase y esquema de acoplamiento incremental diseño, índice secundario hbase, diseño del esquema de paginación
5. Diseño y mantenimiento del almacén de datos de Hive, extracción del sujeto de datos, análisis de la dimensión de los

datos Introducción al almacén de datos:
Modelo de nieve:
cuando una o más tablas de dimensiones no están conectadas directamente a la tabla de hechos, sino a través de tablas de dimensiones Cuando se conecta a la tabla de hechos, es como varios copos de nieve conectados entre sí, por lo que se denomina modelo de copo de nieve.
Inserte la descripción de la imagen aquí
Introducción a Kanban One:

Tablero de acceso y consulta de datos del usuario El tema del
acceso y la consulta del cliente, como su nombre indica, los datos analizados son principalmente los datos de acceso del cliente y los datos de consulta. Pero después de la investigación de la demanda, los datos de visitas aquí en realidad se refieren a la cantidad de clientes visitados, no a la cantidad de visitas de clientes. Los datos originales provienen de la base de datos empresarial mysql del sistema de consultoría.

Hay dos indicadores básicos: el número de clientes visitantes y el número de clientes de consultoría.

Las dimensiones incluyen: año, trimestre, mes, día, hora (segmento de hora dentro del intervalo del día), región, canal fuente, fuente de búsqueda, página fuente de la sesión y visitas totales.

El proceso general:

Inserte la descripción de la imagen aquí

Ventajas y desventajas de los esquemas incrementales:

Problema
que DWS incluye año, trimestre, mes y otras dimensiones de los datos resultantes
debido a los datos del día agregado, el año actual, el trimestre actual, los datos del mes actual son el resultado de la falla
de la
necesidad de recalcular la
pregunta es: tabla DWS con error Cómo se procesan los datos.
Método de resolución de problemas 1
eliminar datos caducados
Ventajas:
compatible con BI, sin confusión de datos históricos, obtener directamente los últimos
datos de la tabla es claro
DESDE (SELECCIONAR * DESDE itcast_ods.web_chat_ems DONDE start_time = '$ {DATESTR}') AS w1 INNER JOIN itcast_ods.web_chat_text_ems AS w2 ON w1.id = w2.id; "6768
Desventajas:
implementación compleja,
rompiendo el principio de no eliminar el diseño del almacén de datos tanto como sea posible.
Método 2:
Agregar nuevas columnas y nombres de tablas cuando el cálculo de datos actual tiempo
, solo tome el último tiempo.
Ventajas:
los cambios de los resultados históricos se almacenan en la tabla.
No se realizará ninguna eliminación y no se destruirá el principio de almacenamiento de datos.
Desventajas:
Para el análisis de BI, debe filtrar el los últimos datos (ligeramente desagradables) para
modificar la estructura de la tabla (es necesario repetir la operación completa)
Método 3:
Agregar una nueva tabla
Se genera una tabla para los resultados de cada día (una tabla por día)
Ventajas:
Cada tabla es clara y apunta a los resultados de un día específico.
Los cambios en los resultados históricos también se registran a través de varias tablas.
Desventajas:
demasiada redundancia de datos (siempre que las necesidades comerciales, la redundancia no sea un problema) no es
amigable para BI (Change a día, cambie una tabla, si BI no admite la configuración de reglas dinámicas para
cambiar automáticamente la tabla, debe cambiarla manualmente)

Letrero 2:

Ventajas y desventajas de los esquemas incrementales:

Mesa con cremallera

Supongo que te gusta

Origin blog.csdn.net/xianyu120/article/details/111870894
Recomendado
Clasificación