Introdução ao Projeto Educacional Zhixing

Projeto 1: Projeto de Big Data Warehouse

Nome do projeto: Zhixing Education Digital Warehouse Project

Estrutura do projeto:

Fonte de dados: dados de sistemas OLTP, como teleconsultoria, ensino offline, educação online, etc., são armazenados principalmente no mysql.
Extração de dados: use sqoop para obter sincronização bidirecional entre bancos de dados relacionais e clusters de big data. Armazenamento de
dados: limpeza de dados HDFS: limpeza de dados, conversão, análise estatística, etc., todos realizados usando o Hive com base no gerenciamento CM.
Análise de dados: limpeza de dados, conversão, análise estatística, etc., são todas realizadas usando o Hive com base no gerenciamento CM.
Sincronização de dados: use sqoop para obter sincronização bidirecional entre bancos de dados relacionais e clusters de big data. Serviço de dados OLAP: O banco de dados Mysql comumente usado é usado.

Insira a descrição da imagem aqui

Ambiente de desenvolvimento:
jdk: Jdk1.8
Scala: 2.11.8
CDH6.2.1: zookeeper-3.4.5-cdh6.2.1, hadoop-3.0.0-cdh6.2.1, hive-2.1.1-cdh6.2.1, hive-4.3 .0-cdh6.2.1
Sqoop: sqoop-1.4.7-cdh6.2.1
Mysql: 5.7
Zeppelin: 0.8.0

Descrição do Projeto:

受互联网+概念的催化,教育市场发展火热,越来越多的教育机构和平台不断涌现,包括有线上学习和线下培训,K12教育和职业教育等,那些注重用户服务、教育质量的平台会最终胜出。目前的企业痛点:
1.数据量大,现有MySQL业务数据库直接读取模式不能满足业务统计性能、效率需要
2.系统多、数据分散,缺少从营销、咨询、报名、教学等等完整业务环节的数据贯通
3.统计分析难度高、工作量大。缺少元数据、数据集合的规范存储,业务部门有数据分析角度需求时,需要程序员、DBA突击查数据、做报表,尤其年底各个部门排队等DBA协助出数据 		如何提高用户服务水平,提高教育质量是每个机构都面临的问题。信息的共享和利用不充分,就导致尽管学校多年的信息化应用积累了大量的数据,但信息孤岛的壁垒一直没有打破,对这些数据无法进一步的挖掘、分析、加工、整理,不能给学校教育、教学、研发、总务等各方面管理决策提供科学、有效的数据支撑。

A aplicação da tecnologia de big data pode extrair e analisar dados massivos do comportamento do usuário, otimizar a qualidade do serviço da plataforma de acordo com os resultados da análise e, finalmente, atender às necessidades dos usuários. O projeto de plataforma de análise de big data educacional é aplicar a tecnologia de big data ao campo da educação e treinamento para fornecer suporte de dados para operações de negócios:
1. Estabelecer um data warehouse de grupo, unificar o data center do grupo e pré-processar e armazenar negócios dispersos dados
2. De acordo com as necessidades de análise de negócios, conduza mineração e análise de dados massivos de comportamento do usuário, personalize coleções de dados multidimensionais para formar data marts para uso em vários cenários e tópicos
3. Seleção e controle de exibição de dados de negócios de front-end, selecione estatística de dados front-end apropriada e ferramenta de exibição de resultados de análise

Requisitos do projeto:

4. Requisitos de negócios de educação online
4.1 Acessando e consultando os painéis de dados do usuário
4.2 Painéis de usuários intencionais
4.3 Painéis de dicas eficazes
44 Painéis de registro de usuários
4.5 Painéis de presença de alunos

Descrição da responsabilidade:
1. Participar da análise preliminar do projeto, projetar a arquitetura geral do sistema
2. Projeto de aquisição de dados, projeto da parte de processamento em tempo real
3. Strom escrever o significado substancial do
projeto de gravação em lote de Hbase 4. Hbase e esquema de encaixe incremental design, índice secundário de hbase, design de esquema de paging
5. Design e manutenção de data warehouse Hive, extração de assunto de dados, análise de dimensão de

dados Introdução ao data warehouse:
Modelo de neve:
quando uma ou mais tabelas de dimensão não estão diretamente conectadas à tabela de fatos, mas por meio de outra tabelas de dimensão Quando conectado à tabela de fatos, é como vários flocos de neve conectados entre si, por isso é chamado de modelo de floco de neve.
Insira a descrição da imagem aqui
Introdução ao Kanban um:

Aceder e consultar o quadro de dados do utilizador O tema do
acesso e consulta do cliente, como o próprio nome sugere, os dados analisados ​​são principalmente os dados de acesso do cliente e os dados da consulta. Mas, após a pesquisa de demanda, os dados de visita aqui se referem, na verdade, ao número de clientes visitados, não ao número de visitas do cliente. Os dados originais vêm do banco de dados de negócios mysql do sistema de consultoria.

Existem dois indicadores principais: o número de clientes visitantes e o número de clientes de consultoria

As dimensões incluem: ano, trimestre, mês, dia, hora (segmento de hora no intervalo do dia), região, canal de origem, fonte de pesquisa, página de origem da sessão e total de visitas.

O processo geral:

Insira a descrição da imagem aqui

Vantagens e desvantagens dos esquemas incrementais:

Problema
que o DWS está incluído ano, trimestre, mês e outras dimensões dos dados resultantes
devido aos dados do dia adicionado, o ano atual, o trimestre atual, os dados do mês atual são o resultado da falha
da
necessidade de recalcular a
questão é: Tabela DWS com falha Como os dados são processados.
Método de solução de problemas 1
excluir dados expirados
Vantagens:
BI-amigável, sem confusão de dados históricos, buscar diretamente os
dados mais recentes na tabela é claro
FROM (SELECT * FROM itcast_ods.web_chat_ems WHERE start_time = '$ {DATESTR}') AS w1 INNER JOIN itcast_ods.web_chat_text_ems AS w2 ON w1.id = w2.id; "6768
Desvantagens:
implementação complexa,
quebrando o princípio de não excluir o design do data warehouse tanto quanto possível.
Método 2:
Adicionar novas colunas e nomes de tabela quando o cálculo de dados atual tempo é
usado, basta aproveitar o tempo mais recente.
Vantagens:
As alterações dos resultados históricos são armazenadas na tabela.
Nenhuma exclusão será realizada e o princípio do data warehouse não será destruído.
Desvantagens:
Para análise de BI, você precisa filtrar o dados mais recentes (ligeiramente hostis) para
modificar a estrutura da tabela (operação completa precisa ser repetida)
Método 3:
Adicionar uma nova tabela
Uma tabela é gerada para os resultados de cada dia (uma tabela por dia)
Vantagens:
Cada tabela é clara e aponta para os resultados de um dia específico.
As alterações nos resultados históricos também são registradas por meio de várias tabelas.
Desvantagens:
muita redundância de dados (contanto que as necessidades do negócio, a redundância não seja um problema)
hostil ao BI (Alterar a dia, altere uma tabela, se o BI não suportar a configuração de regras dinâmicas para
alterar automaticamente a tabela, você deve alterá-la manualmente)

Signboard 2:

Vantagens e desvantagens dos esquemas incrementais:

Mesa com zíper

Acho que você gosta

Origin blog.csdn.net/xianyu120/article/details/111870894
Recomendado
Clasificación