Quando o modelo grande encontra o data warehouse, o HashData ajuda na aplicação em larga escala do LLM

Em 30 de junho, a 16ª Conferência de Arquitetos de Sistemas da China (SACC2023), organizada pela IT168, foi aberta em Pequim. O tema desta conferência é "Evolução da Arquitetura de Transformação Digital", e os tópicos abrangem big data AIGC, multinuvem e multiativo, custo da nuvem e outras áreas importantes.

Na reunião, Yang Shengwen, cientista-chefe da Cook Data, fez uma palestra intitulada "Quando o LLM encontra o Data Warehouse", compartilhou suas observações e pensamentos sobre o surgimento de grandes modelos e apresentou a próxima geração de análise avançada desenvolvida com a ajuda of Cook Data E a ferramenta de ciência de dados HashML simplifica o processo de construção de aplicativos inteligentes, desde o processamento de dados, o ajuste fino do modelo até o aprimoramento do conhecimento e ajuda o LLM a obter aplicativos em grande escala nas empresas.

Yang Shengwen disse que, atualmente, o LLM com dezenas de bilhões de parâmetros já possui excelente compreensão de linguagem e recursos de geração. No processo de rápida evolução da tecnologia LLM, em comparação com os modelos de parâmetros de 100 bilhões de níveis, os modelos de parâmetros de 10 bilhões de níveis têm vantagens de custo muito óbvias e se tornaram uma opção importante para promover o LLM em empresas neste estágio com baixo custo e implementação em grande escala.

"Por um lado, a implantação de privatização de baixo custo do modelo pode resolver as preocupações de muitas empresas sobre segurança de dados. Por outro lado, as empresas podem usar mais facilmente os dados existentes no data warehouse para ajustar o modelo e combinar HashData para o armazenamento de dados vetoriais e o suporte de recuperação eficiente pode criar rapidamente aplicativos inteligentes aprimorados pelo conhecimento." Yang Shengwen introduziu que no processo de implementação específico, as empresas podem usar HashML, uma ferramenta de desenvolvimento de IA fácil de usar, rica em algoritmos e excelente em desempenho, para permitir que cientistas de dados, engenheiros de dados e desenvolvedores de aplicativos possam usar o LLM sem barreiras.

Yang Shengwen, cientista-chefe da Cook Data

Pensamento frio sob o surgimento do LLM

Desde o lançamento do ChatGPT no final de novembro do ano passado, muitos fabricantes nacionais e estrangeiros aumentaram seus investimentos em pesquisa e desenvolvimento de grandes modelos de linguagem, e vários modelos e aplicativos surgiram. Segundo estatísticas do Instituto de Informação Científica e Tecnológica da China, até maio deste ano, 79 modelos em grande escala com escala de parâmetros de mais de 1 bilhão foram lançados na China, que parece ter entrado em uma nova corrida armamentista.

Ainda existem muitas visões diferentes na comunidade acadêmica sobre o boom da IA ​​desencadeado por essa onda de grandes modelos de linguagem. Alguns cientistas acreditam que os experimentos de IA em larga escala devem ser suspensos para evitar riscos e danos potenciais à sociedade humana. Alguns cientistas acreditam que o modelo de linguagem autorregressiva não permite que as máquinas alcancem inteligência de nível humano. Não há necessidade de se preocupar muito. Para alcançar a inteligência artificial geral (AGI), outras rotas técnicas são necessárias.

Embora a comunidade acadêmica ainda seja controversa, isso não afetou a aplicação do LLM em todos os lugares. Em torno do ChatGPT, desenvolvedores e empresas podem não apenas acessar os serviços fornecidos pelo OpenAI por meio da API para criar seus próprios aplicativos de IA, mas também usar vários plug-ins no ChatGPT para tornar o ChatGPT mais poderoso. A OpenAI também lançou recentemente o aplicativo ChatGPT, que suporta entrada de voz e abriu serviços para mais países e regiões. Empresas multinacionais como Google e Microsoft também anunciaram sucessivamente a capacidade de integrar grandes modelos de linguagem em todos os produtos. Na China, muitas empresas tentaram introduzir grandes recursos de modelo de linguagem no desenvolvimento de produtos ou sistemas de TI, cooperando com provedores de serviços de IA.

Yang Shengwen disse que, embora as perspectivas de aplicação de grandes modelos sejam muito amplas, nem todas as empresas e empreendedores podem ter sucesso neste campo. Após a agitação, eles eventualmente retornarão ao valor da cena e retornarão à consideração do custo e benefício do empreendimento. Do ponto de vista do cliente, é preciso considerar a escolha de um cenário adequado e realizar testes de aplicação a um custo menor para verificar os benefícios que podem ser obtidos, em vez de exigir que os clientes invistam uma grande quantia de fundos iniciais no início .

"Para consumidores individuais, serviços de bate-papo e várias ferramentas de eficiência baseadas em grandes modelos de linguagem podem basicamente atender à maioria de suas necessidades." Yang Shengwen disse: "Mas para clientes corporativos, muitas vezes é necessário combinar os recursos de grandes modelos com o Auto- produtos desenvolvidos ou sistemas de TI são integrados ou mesmo profundamente integrados, e haverá alguns problemas.”

Ele apontou que geralmente existem duas maneiras de as empresas aplicarem grandes modelos de linguagem com centenas de bilhões de parâmetros, acessando serviços de nuvem pública ou implantação privatizada, cada uma com suas próprias vantagens e desvantagens. A vantagem dos serviços de nuvem pública é que eles podem ser acessados ​​rapidamente e podem escolher provedores de serviços com flexibilidade. No entanto, eles enfrentam problemas como conformidade regulatória, riscos de vazamento de dados e alto custo de modelos proprietários; a implantação privada pode resolver as preocupações das empresas sobre dados segurança. Você também pode usar seus próprios dados para ajustar e personalizar o modelo básico de forma mais conveniente, mas também enfrenta o problema do alto custo de uso. Grandes modelos com centenas de bilhões de parâmetros terão altos requisitos de recursos de computação e técnicos pessoal.

Yang Shengwen disse que hoje, quando a tecnologia LLM ainda está evoluindo rapidamente, devemos aproveitar ao máximo as vantagens do atual modelo de linguagem grande, ou seja, a excelente capacidade de compreensão e geração de linguagem. Seja raciocínio ou ajuste fino, as dezenas de bilhões de modelos de parâmetros têm vantagens óbvias de custo e são uma opção importante para promover a implementação de baixo custo e em larga escala do LLM nas empresas. Ao mesmo tempo, o ecossistema de código aberto cada vez mais próspero também criou condições para a implementação de dezenas de bilhões de modelos de parâmetros em aplicativos corporativos. Atualmente, surgiram alguns modelos de código aberto lançados por instituições de pesquisa e empresas iniciantes, que têm um bom desempenho e seguem protocolos de código aberto muito amigáveis ​​ao uso comercial.

HashML reduz bastante o limite do aplicativo LLM

Os dados são um ativo muito importante de uma empresa. Como liberar o valor dos dados por meio de análise, mineração e modelagem de dados é um tópico-chave na atual construção digital das empresas. O data warehouse é o local principal para as empresas realizarem armazenamento, análise, processamento e cálculo de dados.

Por muito tempo, os data warehouses foram usados ​​principalmente para atender às necessidades de análise descritiva das empresas, enquanto a análise preditiva e a análise de decisão com maior valor de negócios e maior complexidade técnica ainda não foram amplamente utilizadas. No passado, o setor tentou implementar alguns recursos avançados de análise, como aprendizado de máquina em data warehouses, mas as soluções tradicionais de aprendizado de máquina no banco de dados suportam tipos limitados de algoritmos, e a maioria deles são algoritmos tradicionais, e o suporte para aprendizado profundo é muito fraco e, em geral, com baixa eficiência operacional.

Comparado com data warehouses com arquiteturas tradicionais, o HashData adota uma arquitetura que separa armazenamento e computação, que não apenas fornece bom suporte para serviços de data warehouse tradicionais por meio de mecanismos de computação SQL, mas também permite aprendizado de máquina e aprendizado profundo com a ajuda da computação ML/DL engines.Suporte eficiente, incluindo suporte para grande ajuste fino e inferência de modelo de linguagem. O HashML é a ferramenta avançada de análise e ciência de dados no banco de dados de última geração criada pela Kuker Data usando o poderoso mecanismo de computação do HashData.

Figura 1 Visão geral das principais funções do HashML

O HashML oferece às empresas uma experiência de desenvolvimento de IA fácil de usar e eficaz por meio dos seguintes recursos:

1. HashML fornece uma ampla gama de suporte de algoritmo, especialmente por meio do suporte da estrutura de aprendizagem profunda, pode suportar vários algoritmos de rede neural profunda e também fornece bom suporte para o ajuste fino e raciocínio de grandes modelos de linguagem e a construção de aplicações inteligentes baseadas em grandes modelos de linguagem.

2. O desenvolvimento e introdução de novos algoritmos torna-se muito fácil.Os clientes só precisam prestar atenção à definição e implementação da estrutura da rede neural para desenvolver um novo algoritmo de rede neural profunda;

3. HashML suporta treinamento e raciocínio paralelo distribuído e pode ajustar de forma flexível o grau de paralelismo de acordo com o tamanho dos dados e a complexidade do modelo, melhorando muito a eficiência do treinamento e raciocínio do modelo;

4. HashML suporta aceleração de GPU, e a eficiência de computação pode ser melhorada através de computação distribuída multi-máquina e multi-cartão;

5. HashML fornece uma interface API padrão, unificada e concisa, que reduz bastante o limite do aplicativo;

6. HashML suporta duas interfaces de linguagem de programação, Python e SQL, e os desenvolvedores podem escolher de acordo com suas preferências pessoais;

7. O HashML pode ser integrado ao próspero ecossistema de ciência de dados por meio da interface Python, fornecendo ferramentas de desenvolvimento convenientes para cientistas de dados e engenheiros de aprendizado de máquina.

Como uma implementação estendida do armazenamento de dados em nuvem HashData, o HashML compartilha armazenamento unificado e recursos de computação com o armazenamento de dados e fornece recursos de IA prontos para uso com a implantação do armazenamento de dados, o que reduz muito o custo e a complexidade do sistema implantação e fornece aos desenvolvedores um ambiente unificado de consulta, análise e modelagem de dados.

"O principal objetivo do design do HashML é ser fácil de usar. Esperamos que os clientes possam usar vários algoritmos de IA clássicos e de ponta e recursos de modelo para resolver problemas práticos de negócios." Yang Shengwen disse que o data warehouse empresarial líder do setor representa por LLM e HashData A combinação facilita todo o processo, desde o processamento de dados, o ajuste fino do modelo até a construção de aplicativos inteligentes aprimorados pelo conhecimento, e promove o LLM para aplicativos em larga escala.

Figura 2 Solução de aterrissagem de baixo custo LLM baseada em HashData

Na reunião, Yang Shengwen apresentou dois casos de aplicação da combinação de HashData e LLM: resposta a perguntas inteligentes aprimoradas pelo conhecimento (consulte a Figura 3) e Text2SQL (gere SQL a partir da linguagem natural, consulte a Figura 4). No caso de aplicação de respostas inteligentes a perguntas aprimoradas por conhecimento, os usuários podem coletar e organizar documentos e analisar, bloquear e codificar documentos para construir uma base de conhecimento vetorial. Quando o usuário insere uma pergunta, o robô de diálogo primeiro pesquisa a base de conhecimento para obter informações relevantes com base na pergunta e, em seguida, constrói um prompt adequado para solicitar o modelo de linguagem grande e obter os resultados gerados. Quando existem informações altamente relevantes na base de conhecimento, o modelo de linguagem pode gerar respostas de alta qualidade com base no entendimento e resumo dessas informações.

Figura 3 Resposta inteligente a perguntas com base na base de conhecimento de vetores

No caso do aplicativo Text2SQL, como o modelo básico é relativamente fraco na conversão de linguagem natural para SQL, o modelo básico precisa ser ajustado. Para isso, a equipe preparou cerca de centenas de milhares de corpora de treinamento, ajustados usando o método LoRA encapsulado em HashML e treinados em um cartão V100. Para obter melhores resultados, ao interagir com o robô, além de fornecer a solicitação de consulta inserida pelo usuário, também é necessário fornecer as informações do Schema da tabela de dados necessária para realizar a consulta. As informações do esquema podem ser fornecidas pelo usuário ou podem ser obtidas automaticamente pelo robô que se conecta ao banco de dados no cenário de produção real.

Figura 4 Text2SQL: gerar SQL a partir da linguagem natural

Olhando para o futuro, Yang Shengwen acredita que a direção do desenvolvimento futuro de grandes modelos de linguagem deve ser diversificada e inclusiva.Toda empresa pode usar grandes modelos de linguagem para melhorar o nível de inteligência e alcançar redução de custos e aumento de eficiência. A estreita combinação de dados e modelos de grande linguagem criará um enorme valor para as empresas e para a sociedade. O data warehouse corporativo representado por HashData fornece uma plataforma natural para essa combinação. As empresas podem liberar o potencial de aplicativos de grandes modelos de linguagem por meio do ajuste fino do modelo e da inovação de aplicativos em seus próprios dados, liberando assim totalmente o valor dos dados e alcançando novos pontos de crescimento. Construir aplicativos inteligentes orientados a cenários baseados em data warehouses e grandes modelos de linguagem se tornará um novo paradigma para o desenvolvimento de aplicativos inteligentes corporativos.

おすすめ

転載: blog.csdn.net/m0_54979897/article/details/131482662