[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Nota do editor:

Na noite de 10 de setembro, o fórum de ciência de dados "Cloud Plus Data, Smart Drive Future" organizado pela Qiniu Cloud foi realizado conforme programado. Na transmissão ao vivo, Chen Chao, vice-presidente da Qiniu Cloud Product and P&D, nos trouxe um maravilhoso discurso com o tópico "Pandora Best Practices of Qiniu Cloud Machine Data Analysis Platform" A seguir está uma transcrição do discurso.

Perfil de convidado

Chen Chao, vice-presidente de produtos e P&D da Qiniu Cloud, é responsável pelo planejamento de produtos e sistema de P&D da Qiniu Cloud. Nos últimos anos, ele se concentrou em visão de máquina, computação distribuída e aprendizado de máquina e outros campos, com um sistema de computação distribuído muito rico e em grande escala Experiência na concepção e implementação de sistemas de aprendizagem automática, e pesquisa aprofundada em bases de dados distribuídas.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

O tópico do meu discurso de hoje é "Práticas recomendadas da plataforma de análise de dados de máquina em nuvem Qiniu Pandora". Antes de apresentar o Pandora, podemos primeiro compreender a arquitetura geral atual da nuvem Qiniu. Conforme mostrado na figura abaixo, o resultado final da figura é a parte da nuvem Qiniu Cloud, incluindo nuvem ao vivo, nuvem de áudio e vídeo em tempo real e nuvem de monitoramento de câmera. Todos os dados são reunidos em um lago de dados heterogêneo nascido do armazenamento de objetos. no. Acima do data lake está uma plataforma de análise visual de dados e uma plataforma de análise de dados de máquina. Pandora de que estamos falando hoje pertence à plataforma de análise de dados de máquina.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Pandora pertence a este módulo de inteligência de dados de máquina em todo o território da Qiniu Cloud. Os dados da máquina contêm várias partes, como muitos dados e os dados de vários dispositivos podem se tornar dados da máquina.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

O que são dados de máquina

Temos uma definição simples: dados de máquina são dados produzidos por qualquer máquina ou sistema. Por exemplo, dados gerados por servidores, dados gerados por sensores e dados gerados por vários aplicativos, incluindo dispositivos de rede e assim por diante. Uma característica dos dados de máquina, é composto por um grande número de dados de série temporal não estruturados. Para os dados de máquina com os quais estamos lidando, não existe um esquema predefinido e seu formato de dados é particularmente grande e é difícil de prever e definir, o que significa que é difícil prever qual formato virá, ou eu predefini Bom formato.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Recursos do Pandora e processo de coleta

Posicionamento do Pandora como plataforma de análise em tempo real de dados de máquina, quais são suas características?
A primeira é que o Pandora oferece suporte nativo a dados livres de esquema. Ou seja, você pode adicionar e excluir campos dinamicamente a qualquer momento. O Pandora também oferece suporte nativo à capacidade de esquema na leitura, de modo que a forma como os dados são gerados será como entrar no Pandora sem qualquer processamento. Ao mesmo tempo, apoiamos a função de aceleração do modelo. Otimize iterativamente o modelo de dados por meio de persistência em camadas SPL, armazenamento colunar, CodeGen, computação vetorial e outras tecnologias.
O segundo recurso é a arquitetura nativa da nuvem. Todo o sistema do Pandora pode evitar a dificuldade de modelagem de pré-processamento causada pelo processamento ETL. Ao mesmo tempo, a computação (recursos dinâmicos) e o armazenamento (recursos estáticos) são separados, reduzindo custos, melhorando a flexibilidade da computação e sendo completos O gerenciamento do ciclo de vida de dados quente-quente-frio pode reduzir significativamente os custos de armazenamento.
Terceiro, é nosso ponto distintivo: os poderosos recursos analíticos e de expressão da SPL. Suporta comandos avançados de aprendizado de máquina para atender a um grande número de análises de dados de máquina e cenários de IA; ao mesmo tempo, oferece suporte ao cálculo SPL em tempo real, o resultado é exportado para o sistema de encaixe e o ciclo fechado de negócios
é concluído. O quarto ponto é que temos um poderoso recurso de expansão do sistema Em outras palavras, você pode pensar no Pandora como um sistema operacional, no qual você pode usar os vários recursos nativos do Pandora para criar seu próprio ecossistema de APP. O SDK oferece suporte à expansão conectável do sistema de visualização da plataforma e da organização de negócios. Ao mesmo tempo, o Pandora pode não apenas oferecer suporte a SQL, mas também expandir os recursos de computação SPL por meio de Python, Go + etc.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Abaixo está uma vista panorâmica de Pandora. Do ponto de vista da análise de big data, primeiro coletar, depois processar, limpar e, por fim, analisar e aplicar é a prática comum de todos os fornecedores de big data. Pandora é o único que oferece suporte à indexação em tempo real de formatos de dados brutos, o que significa que, além da análise, também pode oferecer suporte a serviços de recuperação. Toda a recuperação e análise são unificadas no mecanismo de análise do SPL, que pode suportar serviços de recuperação e análise ao mesmo tempo. Isso significa que os usuários não se preocupam com a recuperação ou análise e pode ser resolvido em uma parada.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

O processo de gerenciamento da coleta de dados do Pandora é mostrado na figura abaixo, através deste processo, desde que haja dados gerados, eles podem ser obtidos de uma forma muito conveniente.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Esquema na estrada

Depois que os dados são obtidos, é o esquema realçado de Pandora na leitura. Podemos ver a diferença de Pandora nesta imagem. O Pandora pode realizar análises dinâmicas durante a análise depois que os dados originais são carregados diretamente. Em outras palavras, apenas uma cópia dos dados originais é necessária e nossos vários modelos de dados podem responder a todas as perguntas de diferentes usuários. A vantagem disso é que você pode executar várias modelagens para vários dados. Para o formato de dados alterado, basta fazer algumas pequenas alterações no Pandora para ficar totalmente compatível. Isso não é possível com um sistema de log puro.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

SPL: Linguagem padrão para dados de análise de máquina

SQL é a linguagem padrão para nossa análise de dados de máquina. Com uma única linha de comandos SQL, você pode recuperar, analisar e visualizar alarmes. Ele oferece suporte ao processamento direto de dados brutos e é otimizado para dados de série temporal. Você pode ver que, quando definimos os dados de máquina antes, incluímos uma grande quantidade de dados estruturados de série temporal, então isso nos deu muito espaço para otimização.

Além disso, construímos vários mecanismos de armazenamento no data lake e podemos nos conectar a vários mecanismos de armazenamento. Por fim, escrevemos uma fórmula SPL = SQL + Unix Pipeline, o que significa que podemos pesquisar em SPL e até mesmo escrever condições de análise, mas sem o problema de escrever código.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Ao fornecer uma linguagem de alto nível para análise de dados de máquina e suportar recursos complexos de pesquisa, agregação e análise de correlação, os recursos de processamento são mais poderosos. Suporte a várias operações matemáticas, análise de correlação, análise de transação, análise preditiva, etc. Na análise de transações, é possível analisar uma coleção de eventos continuamente inter-relacionados, razão pela qual o Pandora é particularmente adequado para cenários de segurança.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

No momento, integramos os recursos do SPL à plataforma. Os usuários podem acessar facilmente os dados. A ativação de recursos, a modelagem de algoritmos, a exibição de efeitos, a aplicação de valor, etc. podem ser concluídos nela.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Aplicativo de extensão Pandora

Com recursos de SPL, o Pandora oferece suporte aos usuários para acumular seu conhecimento sobre ele. Portanto, nossa filosofia é que o Pandora não é uma plataforma, esperamos que esteja agregando valor. Em outras palavras, espero depositar conhecimento na App Store de Pandora na forma de aplicativos. A App Store de Pandora, como uma parte inacessível da arquitetura completa do produto, forma um link completo do acesso aos dados à exibição dos dados.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Arquitetura de armazenamento: o gerenciamento do ciclo de vida completo dos dados
enfrenta a situação de grande volume de dados e enfatiza o processamento em tempo real. Na arquitetura de armazenamento do Pandora, criamos o gerenciamento do ciclo de vida completo dos dados.

Sob as duas considerações de custo e desempenho, alcançamos a dissociação completa de computação e armazenamento em um processo coerente, e os recursos podem mudar conforme necessário; os dados podem ser armazenados para dados históricos de longo prazo e os dados históricos massivos acumulados podem dar suporte ao aprendizado de máquina futuro , AIOps e outros cenários.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Ao mesmo tempo, a Pandora também está trabalhando duro para se conectar ao armazenamento em nuvem Qiniu Cloud, para que todos possam desfrutar do mais alto desempenho possível ao analisar diretamente o armazenamento em nuvem Qiniu Cloud.

Compartilhamento de pontos técnicos

Fizemos índice direto e índice invertido, bem como armazenamento misto de linha e coluna, e também suportamos armazenamento hierárquico e On Read, CodeGen e vetorização. A otimização do TimeSeries pode ser refletida no mecanismo de cálculo, permitindo que os usuários experimentem um desempenho mais rápido e serviços mais estáveis.

[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Caso Pandora

01 Uma
grande seguradora

É usado principalmente para o gerenciamento inteligente de todo o ciclo de vida do log geral do sistema de informações e realiza a coleta unificada, processamento de fusão, armazenamento centralizado, análise de correlação e gerenciamento inteligente do log. É adequado para resolver três cenários principais no campo de desenvolvimento de operação e manutenção:
operação e manutenção de TI, auditoria de segurança, análise de operação de negócios; pode fornecer monitoramento online, suporte de dados de operação e manutenção, diagnóstico de problemas, aviso de falha, monitoramento de recursos, auditoria de comportamento do usuário e extração de regras , Arquivamento, *** rastreabilidade, análise de tendências de negócios e outros serviços.
[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

02 Uma das
principais fabricantes de telefones celulares

O segundo caso é o diagnóstico de monitoramento e a análise da causa raiz de um fabricante de telefones celulares. O celular deve passar por um processo de teste antes de sair da fábrica, mas cada vez que ele é testado, muitos dados de teste são gerados para refletir o mau funcionamento do celular. Quando não há conhecimento do sistema de manufatura, os funcionários precisam olhar para ele, o que é muito complicado. Com a autorização do Pandora, os fabricantes de telefones celulares podem monitorar remotamente a qualidade da produção de nossa oficina e localizar rapidamente a causa da falha.
[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

03 Uma
empresa líder em semicondutores

A seguir está um exemplo de uma empresa de semicondutores. A cadeia da indústria de semicondutores é muito longa. Na origem está um dispositivo chamado forno de cristal único para refinar o silício de cristal único. Pandora pode ajudar o silício de cristal único a verificar sua integridade, o que significa que podemos detectar a falha do forno de cristal único a tempo, dar um alarme quando a falha ocorrer, evitar a entrada desnecessária de matéria-prima e interromper a perda de tempo. Podemos ver na figura que o Pandora analisa em várias dimensões, coleta dados por meio de sensores no forno de cristal único e monitora a produção e a manutenção preditiva dos equipamentos.
[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

04 Análise de
veículos inteligentes conectados

O último caso é um carro em rede inteligente. O Pandora pode determinar os dados do carro, como quando o volante é ligado, quando o freio é pisado, etc., que podem ser vistos rapidamente no Pandora.
[Compartilhamento de produtos secos] Chen Chao: Melhores práticas de Pandora, plataforma de análise de dados de máquina em nuvem Qiniu

Você pode ver nos casos acima que os dados direcionados pelo Pandora são muito irregulares e os dados com carimbo de data / hora são gerados pela máquina. Portanto, temos aplicações mais interessantes em finanças, manufatura e Internet de veículos. A Pandora também espera capacitar mais setores relacionados e alcançar a atualização industrial por meio de big data e IA.

Acho que você gosta

Origin blog.51cto.com/7741292/2534856
Recomendado
Clasificación