[ODPS New Product Release Issue 2] Data warehouse em tempo real Hologres: lança instâncias de grupo de computação/suporta dados JSON/cálculos vetoriais + modelos grandes e outros novos recursos

Os produtos da série ODPS da Alibaba Cloud, com MaxCompute, DataWorks e Hologres como núcleo, estão comprometidos em resolver as necessidades de computação dos dados diversificados dos usuários, realizando integração de arquitetura integrada em armazenamento, agendamento e gerenciamento de metadados e apoiando transporte, finanças, ciência pesquisa e muitos outros campos.O processamento eficiente de dados de cena é a primeira plataforma integrada de big data autodesenvolvida e mais amplamente usada na China.

Esta questão terá como foco

ꔷ Hologres lança instâncias de grupo de computação

ꔷ Hologres suporta dados JSON

ꔷ Cálculo de vetor Hologres + capacidade de modelo grande

ꔷ Novos recursos de sincronização de dados da Hologres

ꔷArmazenamento em camadas de dados Hologres

Novo recurso: Hologres lança instâncias de grupo de computação

As instâncias de grupo de computação suportam a decomposição de recursos de computação em diferentes grupos de computação para melhor atender às implantações de alta disponibilidade.

Cenários de aplicação:

  • Isolamento de recursos: jitter de consulta causado pela interação entre diferentes cenários empresariais, como a interação entre escrita e escrita, entre leitura e escrita, entre consultas grandes e pequenas, bem como a interação entre serviços online, análise multidimensional, ad hoc análise, etc.; alguns mecanismos de big data não usam arquitetura de separação de armazenamento e cálculo para alcançar cenários de negócios de alto custo, como isolamento por meio de múltiplas cópias.
  • Alta disponibilidade: Para soluções sem alta disponibilidade de nível de serviço, recuperação de desastres e multiatividade, as empresas usam links duplos/múltiplos para obter alta disponibilidade, recuperação de desastres e multiatividade, o que envolve cenários de negócios de alto custo, como mão de obra e recursos computacionais.
  • Expansão e contração flexíveis: Em resposta às altas demandas das empresas por flexibilidade comercial: o crescimento repentino no tráfego comercial pode ser expandido a tempo de lidar com o tráfego, e a capacidade pode ser reduzida a tempo durante os picos de negócios baixos para reduzir perdas e custos de capital comercial .

Características:

  • Isolamento de recursos físicos naturais: Existe isolamento de recursos físicos naturais entre cada grupo de computação. O uso empresarial pode evitar a influência mútua entre grupos de computação e reduzir o nervosismo nos negócios.
  • Expansão e contração flexíveis sob demanda: a computação e o armazenamento são altamente escalonáveis ​​e têm dupla elasticidade: as empresas podem aumentar a escala no prazo ou sob demanda (Scale Out); expansão e contração intensas sob demanda (Scale Up).
  • Reduza custos: com base na implementação da replicação física, os arquivos físicos são completamente reutilizados, as empresas podem usar recursos de maneira flexível sob demanda e os custos podem ser controlados ao mínimo.

Instância de grupo de computação de demonstração de produto

Vá para o console do Hologres, crie um novo grupo de cálculo por meio de SQL e conceda permissões ao grupo de tabelas (dados) correspondente - altere o grupo de cálculo, altere o armazém innit para o armazém de leitura recém-criado - execute a consulta e toda a carga será transferido para o armazém de leitura. Ao mesmo tempo, você pode iniciar e parar o grupo de cálculo conforme necessário. As operações de parada ou início podem ser implementadas usando SQL ou podem ser operadas visualmente na interface. Ao mesmo tempo, os recursos do grupo de informática também podem ser ajustados sob demanda, o que pode ser operado visualmente na página ou por meio de CPO - pode ser liberado na hora em que o grupo de informática não precisar utilizá-lo, sem ocupar qualquer recursos.

Veja o vídeo de demonstração do produto

Novo recurso – Hologres oferece suporte a dados JSON

Suporte ao armazenamento JSONB colunar para melhorar a eficiência da consulta

Cenários de aplicação:

  • Eficiência de consulta: Para esquema semiestruturado, o esquema não pode ser corrigido antecipadamente, e o armazenamento de linha é usado principalmente. Ao calcular dados em grande escala, uma grande quantidade de dados precisa ser verificada. A eficiência da consulta deve atender às necessidades comerciais da empresa.
  • Eficiência de armazenamento: A capacidade de compactação do armazenamento em coluna não pode ser usada, resultando em baixa taxa de compactação e grande espaço de armazenamento. A eficiência do armazenamento deve atender às necessidades dos negócios empresariais
  • Processamento de dados: Para problemas relativamente complexos no processamento de dados semiestruturados, são necessárias operações como limpeza, extração e conversão de dados. É necessário atender às necessidades de negócios de suporte funcional mais abrangentes da empresa.

Características:

Métodos de processamento de dados JSON: como um tipo de dados semiestruturados comum, JSON possui dois métodos de processamento de dados:

  • Importar significa analisar a estrutura de dados e armazenar os dados em um esquema forte. A vantagem desse método é que quando armazenado no banco de dados, já é um esquema de dados forte, que possui melhor desempenho de consulta e armazenamento. A desvantagem é que durante o processo de análise, os dados precisam ser convertidos em um esquema forte durante o processamento e a flexibilidade dos dados JSON é perdida. Se JSONkey for adicionado ou reduzido, o programa de análise precisará ser modificado.
  • Outra maneira é gravar diretamente essa camada de dados no banco de dados e usar a função JSON para analisá-la durante a consulta. A vantagem deste método é que ele retém ao máximo a flexibilidade dos dados JSON, a desvantagem é que o desempenho da consulta é ruim e o desenvolvimento é complicado pela seleção de funções e métodos de processamento apropriados a cada vez.

Para métodos de processamento de dados JSON, Hologres otimiza os recursos de armazenamento de dados JSON e pode armazená-los de acordo com suas desvantagens. O sistema de dados JSON deduzirá os tipos de dados que podem ser armazenados com base na chave escrita e nos valores de valor.

  • Flexível e fácil de usar: Diferente da opção 1, os dados são fortemente esquematizados antecipadamente, mantendo ao máximo a flexibilidade dos dados JSON.
  • Alta taxa de compactação: O uso do armazenamento colunar pode efetivamente melhorar a taxa de compactação e economizar espaço de armazenamento.
  • Forte desempenho de consulta: use o armazenamento em coluna para reduzir os dados verificados, melhorar a eficiência de E/S e melhorar a eficiência da consulta.

Função JSON da coluna de demonstração do produto

Com base nos dados de amostra públicos armazenados no formato JSON, que contém dados de valores-chave armazenados no formato JSON, cada linha terá chave e valor para representar diferentes significados de negócios. ——Use esta seção C para consultar o número de problemas fechados a cada ano e mês, e o sistema começa a executar.——O método de execução tradicional e o método de consulta verificam linha por linha e retiram as chaves e valores um por um , o que leva um tempo total de 55 segundos. ——Neste momento, o armazenamento da coluna de dados está habilitado e pode ser consultado após a conclusão. Leva 1,47 segundos no total e a eficiência da consulta é bastante melhorada.

Veja o vídeo de demonstração do produto

Novos recursos — cálculo vetorial Hologres + recursos de modelos grandes

Computação vetorial de alto desempenho, combinada com grandes modelos para construir uma base de conhecimento exclusiva

Cenários de aplicação:

Problemas na implantação da base de conhecimento de grandes modelos de nível empresarial:

Quando as empresas implantarem modelos, haverá problemas como altos custos em recursos de computação e armazenamento, elasticidade de recursos e implantação de grandes modelos;

Quando o corpus de processos de negócios, o processo de processamento do corpus original será complicado. Quando há uma grande quantidade de dados do corpus, há requisitos mais elevados para a capacidade de escrita e desempenho em tempo real do banco de dados vetorial. Quando a base de conhecimento pergunta e responde QPS é alto, a capacidade de consulta do banco de dados vetorial é alta, requisitos e outras necessidades;

Quando as empresas constroem bases de conhecimento de modelos em grande escala, elas encontrarão problemas como processos longos, muitos produtos envolvidos, altos custos gerais de conexão da arquitetura e dificuldade em conectar a arquitetura.

Características:

Vantagens gerais do Hologres + Proxima:

Proxima é um mecanismo vetorial desenvolvido pela DAMO Academy, cuja estabilidade e desempenho são superiores aos produtos de código aberto, como o Faiss. Hologres está profundamente integrado ao Proxima, o mecanismo vetorial desenvolvido pela própria DAMO Academy, para fornecer serviços de computação vetorial de alto PQS e baixa latência. Suas vantagens específicas são as seguintes:

  • Alto desempenho: por meio do data warehouse integrado, ele fornece serviços de consulta vetorial on-line de baixa latência e alto rendimento; suporta gravação e atualização de dados vetoriais em tempo real e pode ser consultado imediatamente após a gravação.
  • Alta usabilidade: interface de consulta SQL unificada para consulta de dados vetoriais, compatível com o ecossistema PostgreSQL; suporta recuperação de vetores com condições de filtragem complexas
  • Capacidades de nível empresarial: Expansão horizontal flexível de recursos de armazenamento e computação vetorial; suporta arquitetura de instância mestre-escravo, arquitetura de instância de grupo de computação, suporta isolamento físico de recursos de computação e alcança recursos de alta disponibilidade de nível empresarial

Hologres+PAI implanta arquitetura de base de conhecimento de modelo grande e vantagens:

A arquitetura é dividida principalmente em três níveis

  • Camada de pré-processamento de pré-dados: Para os dados do corpus original, pedaços de texto são formados após o carregamento e análise e, em seguida, vetorizados por meio de incorporação para gerar dados vetoriais do corpus, que são finalmente gravados em dados Hologres em tempo real.
  • Camada de geração de texto: para a pergunta original do usuário, a pergunta é primeiro incorporada em um vetor de pergunta e, em seguida, os principais vetores K são recuperados em Hologres.
  • Camada de geração final: o corpus Top K é usado como entrada do modelo grande e, combinado com outras entradas do modelo grande, incluindo o histórico do chat e o raciocínio final do Prompt, a resposta final é obtida. Os grandes modelos aqui podem ser implantados uniformemente por meio da plataforma de aprendizado de máquina.

Vantagens arquitetônicas:

  • Implantação de modelo simplificado: implantação com um clique do serviço de inferência de modelo grande LLM por meio do serviço de modelo online PAI-EAS
  • Simplifique o processamento e a consulta do corpus: carregamento, fatiamento, vetorização e importação de dados do corpus com um clique para o Hologres; ao mesmo tempo, com base nos recursos de recuperação de vetores de baixa latência e alto rendimento do Hologres, ele fornece aos usuários um vetor mais rápido e melhor serviços de recuperação.
  • Construção completa da base de conhecimento: sem necessidade de conexão manual, implantação de modelos grandes, implantação de WebUI, processamento de dados corpus e ajuste fino de modelos grandes podem ser concluídos em uma plataforma.

Demonstração de demonstração do produto - Hologres+PAI implanta grande base de conhecimento de modelo

Abra uma instância Hologres e registre o domínio da instância nas informações da rede na página de detalhes da instância. Clique no botão da instância de login para entrar no HoloWeb - crie um banco de dados na página de gerenciamento de dados original e registre o nome da conta do banco de dados - clique na Central de Segurança para entrar na página de gerenciamento de usuários, crie um usuário personalizado e autorize-o, e registre o nome de usuário criado e senha - prossiga Para a implantação de modelos grandes, você pode usar o PAI-EAS para implantar um modelo LLM grande e registrar as informações de chamada do modelo grande - na Demo, use o PAI-EAS para implantar o serviço WebUI do langchain. Clique para visualizar o aplicativo da web para entrar na página da interface da web. Defina o modelo de incorporação na página de configurações. Você pode definir o modelo grande LLM recém-implantado e o armazenamento vetorial Hologres. Os arquivos acima podem ser configurados com um clique no arquivo Json - clique em Analisar e preencha as informações de configuração relevantes com um clique. Ao mesmo tempo, clique em Conectar Hologres para testar a conectividade – entre na página de upload para processar dados do corpus. Carregue os dados do corpus, defina os parâmetros relacionados ao fatiamento do texto, clique em upload para importar os dados para a tabela de vetores Hologres - retorne ao editor HoloWeb para atualizar, os dados do corpus foram importados para o Hologres como um vetor. Voltamos à página da interface da web agora mesmo, entramos na página de bate-papo, primeiro tentamos o modelo grande nativo do ChaGLM e perguntamos "O que é Hologres", mas o resultado não é ideal - então usamos Hologres para ajustar o modelo grande e perguntamos ao mesma pergunta, o resultado está correto - Retorne à página do chatbot langchain e conclua a chamada da API para a solução acima chamando as informações.

Veja o vídeo de demonstração do produto

Novos recursos – novos recursos de sincronização de dados Hologres

Adicionado suporte para sincronização de fontes de dados como ClickHouse, kafka e Postgres para Hologres

Cenários de aplicação:

  • Desempenho de sincronização: Existem muitas fontes de dados corporativos, resultando em diferentes requisitos de dados, como sincronização completa de banco de dados, sincronização incremental completa, fusão de subbancos de dados e subtabelas, sincronização em tempo real, etc.;
  • As empresas constroem plataformas de dados. Cada fonte de dados precisa fazer certas adaptações, portanto, para obter uma escrita de alto desempenho, os alunos de desenvolvimento precisam ter certos recursos de ajuste de sincronização.
  • Custo de sincronização: Existem muitas fontes de dados, e o desenvolvimento correspondente do cliente levará a altos custos iniciais para os desenvolvedores; o desempenho da sincronização não pode atender às necessidades de negócios, e os recursos são continuamente adicionados em um curto período de tempo, e o custo aumenta; gerenciamento de metadados é difícil durante a sincronização de dados
  • Operação e manutenção de negócios: plataforma de dados autoconstruída, todo o ciclo de vida de desenvolvimento, depuração, implantação, operação e manutenção, etc., são todos gerenciados por estudantes de desenvolvimento. Todo o processo é muito complicado, e todo o link precisa ser verificado um por um quanto a inconsistência de dados, o que é caro.Se houver um problema com os dados em um determinado ponto, isso envolverá retrolavagem de dados, e as fontes de retrolavagem são diferentes, dificultando muito o processo de operação e manutenção.

Características:

Visão geral dos recursos de sincronização de dados Hologres

Hologres tem um ecossistema muito aberto, suportando Flink, integração de dados DataWorks, cliente Holo, JDBC e outros métodos para sincronizar dados com Hologres para atender às necessidades de sincronização e migração de dados de vários negócios e obter análise de dados e dados mais eficientes e em tempo real. capacidades de serviço

  • Flink é totalmente compatível: pode realizar gravação de dados em tempo real, associação de tabelas de dimensões, leitura, etc.
  • Altamente adaptável à integração de dados DataWorks: Altamente adaptável à integração de dados DataWorks.Por exemplo, várias fontes de dados suportadas pelo DataWorks podem basicamente ser sincronizadas com Hologres.
  • O Holo Client e o Holo Shipper estão disponíveis imediatamente: verificação de dados de alto desempenho e atualizações ponto-a-gravação de alto desempenho podem ser obtidas através do Holo Client. Ao mesmo tempo, o Holo Shipper pode realizar a migração de todo o banco de dados de instâncias de dados.
  • Interface JDBC/ODBC padrão: Fornece interface JDBC/ODBC padrão, pronta para uso.

Evolução contínua, novos recursos para sincronização de dados Hologres

Para atender às diferentes necessidades de negócios, a Hologres atualiza continuamente e de forma iterativa suas capacidades de sincronização de dados. Suas novas capacidades possuem as seguintes características:

  • Migração off-line de todo o banco de dados ClickHouse: depende da integração de dados DataWorks. A migração off-line geral é dividida em duas partes: uma é a identificação e mapeamento automático de metadados; a outra é a sincronização única de todos os dados do banco de dados, sem a necessidade escrever uma tabela por tabela como tarefas anteriores, reduzindo bastante vários inconvenientes no desenvolvimento e operação e realizando a rápida migração dos dados do ClickHouse para Hologres.
  • Assinatura em tempo real do Kafak: a assinatura em tempo real do Kafak pode ser obtida de duas maneiras: primeiro, Flink assina o Kafka, grava-o no Hologres em tempo real e implementa o streaming ETL do data warehouse em tempo real na camada do data warehouse; em segundo lugar, através da integração de dados DataWorks, o Kafka é consumido em tempo real, as alterações das mensagens são sincronizadas automaticamente e, em seguida, gravadas automaticamente diretamente no Hologres. Os dados do Kafak podem ser acessados ​​​​rapidamente.
  • Sincronização em tempo real do PostgreSQL: os dados do PostgreSQL são sincronizados com o Hologres em tempo real por meio da integração de dados do DataWorks.Ele não apenas suporta a sincronização em tempo real de tabelas únicas, mas também suporta configuração de capacidade DDL, sincronização em tempo real de todo o banco de dados, mapeamento automático de estruturas de banco de dados e tabelas e soma total A sincronização incremental de dados em tempo real reduz bastante os problemas de sincronização de desenvolvimento.

Sincronização de toda a biblioteca do Product Demo-ClickHouse

Na interface de integração de dados DataWorks, configure as fontes de dados ClickHouse e Hologres e teste a conectividade das fontes de dados. Se o teste for aprovado, você poderá prosseguir para a próxima etapa - selecione as tabelas que precisam ser sincronizadas no ClickHouse e selecione configurações avançadas, como velocidade de tarefa single-end. Simultaneidade, execução e outras configurações, verifique a tabela e sincronize-a com Hologres de uma só vez - mapeamento da tabela de destino, clique no botão de atualização em lote para realizar o mapeamento da estrutura da tabela - inicie a tarefa de sincronização, aguarde cerca de dois minutos - após a conclusão da sincronização de dados, a página foi atualizada. Você pode verificar os dados upstream com base no número de dados gravados para ver se os dados foram transmitidos - Hologres realiza a verificação de dados Você pode fazer uma consulta simples na tabela e a consulta estará concluída.

Veja o vídeo de demonstração do produto

Novo recurso: armazenamento em camadas de dados Hologres

Cenários de aplicação:

  • Pedidos de comércio eletrônico: os pedidos foram acessados ​​com frequência nos últimos meses e a sensibilidade do RT é alta; a frequência de acesso aos dados históricos é baixa e a latência não é sensível.
  • Análise de comportamento: consultas de alta frequência de dados de tráfego recentes exigem alta pontualidade; consultas de dados históricos são menos frequentes, mas exigem que possam ser verificadas a qualquer momento.
  • Análise de log: os dados recentes são consultados com frequência; os dados históricos precisam ser salvos por um longo tempo para garantir o trabalho subsequente de auditoria e retrocesso.

Características:

  • Armazenamento padrão: O armazenamento padrão é um armazenamento quente SSD completo, que é o armazenamento padrão do Hologres. É principalmente adequado para cenários onde os dados completos da tabela são acessados ​​com frequência e têm altos requisitos de desempenho de acesso.
  • Armazenamento de acesso de baixa frequência: A frequência de acesso diminuirá com o tempo e gradualmente se tornará dados frios. Por exemplo, alguns dados de log não estarão acessíveis após este ano, e então os dados precisarão ser migrados do armazenamento padrão para o armazenamento de baixa frequência para reduzir custos. Se tivermos a capacidade de converter automaticamente dados quentes e frios com base em regras, conseguiremos reduzir bastante nossos custos.O custo de manutenção é adequado para cenários onde o volume de dados é grande, a frequência de acesso é baixa e os custos de armazenamento precisam ser reduzidos.
  • Estratificação dinâmica a quente e a frio de partições: Defina regras de fluxo de partição a quente e a frio por meio de recursos de particionamento dinâmico para obter estratificação dinâmica a quente e a frio de partições; e o custo da estratificação a quente e a frio, tomando como exemplo a assinatura anual e mensal de Pequim, seu padrão o armazenamento é de um yuan por GB por mês, e o armazenamento garantido de baixa frequência é de 0,144 yuans por GB por mês, o que é cerca de sete vezes a diferença de custo. Em termos de desempenho, com base nos resultados do conjunto de testes medidos usando dados padrão de TPC para ETB, há uma lacuna de cerca de 3 a 4 vezes.

Demonstração do produto - Crie instruções de tabela de armazenamento frio e configure tabelas de partição

Por exemplo, na instrução de criação de tabela na Demonstração, definir uma propriedade de tabela científica ao criar a tabela indica que você pode criar uma tabela de armazenamento frio clicando em Executar. Ao consultar a tabela do sistema de status de armazenamento da tabela HG, você pode ver se o armazenamento A estratégia da tabela a seguir atende às expectativas. ——O status de progresso da tabela é frio e esta é uma tabela de armazenamento. Para a tabela de armazenamento quente deste armazenamento padrão que já existe no sistema, por meio de execução separada, siga o comando, especifique a tabela e clique em Executar, e a configuração do armazenamento frio será bem-sucedida - todos os dados no estado existente da tabela foram foi completamente movido para o meio de armazenamento de baixa frequência de armazenamento a frio. ——A tabela de partição é dividida em duas partes. A primeira parte é criar uma tabela de armazenamento a frio de uma tabela de partição comum. Na declaração de criação da tabela de partição, o o modo de armazenamento da tabela também é definido. A subtabela de partição da tabela de partição será padronizada. A estratégia de armazenamento é registrada como uma tabela de banco de dados e não precisa ser definida separadamente. ——Por outro lado, se quisermos modificar os atributos de uma determinada partição, assumindo que queremos modificar um atributo de uma determinada partição, especifique o nome da tabela da subtabela da partição na propriedade da tabela e, em seguida, defina o política de armazenamento para alterar uma determinada subtabela de partição é alterada para os atributos quentes e frios que desejamos. Para tabelas de partição dinâmica, precisamos definir algumas outras propriedades.

Veja o vídeo de demonstração do produto

Avaliação gratuita ao receber Hologres5000CU: https://free.aliyun.com/?pipCode=hologram

Obtenha uma avaliação gratuita do DataWorks: https://free.aliyun.com/?pipCode=dide

Uso gratuito ao receber MaxCompute5000CU: https://free.aliyun.com/?pipCode=odps

Multado em 200 yuans e mais de 1 milhão de yuans confiscados You Yuxi: A importância dos documentos chineses de alta qualidade Servidor de migração hard-core de Musk, Solon para JDK 21, threads virtuais são incríveis! ! ! O controle de congestionamento TCP salva a Internet Flutter para OpenHarmony está aqui O período LTS do kernel Linux será restaurado de 6 para 2 anos Go 1.22 corrigirá o erro de variável de loop for Google comemora seu 25º aniversário Svelte construiu uma "nova roda" - runas
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/5583868/blog/10112759
Recomendado
Clasificación