Falando sobre modelos grandes em campos verticais


Antes de falar sobre o modelo grande no campo vertical, vamos fazer uma breve revisão dos modelos grandes atuais para ver o que são os modelos grandes.

Quais são os modelos grandes?

Grandes modelos geralmente podem ser divididos em grandes modelos gerais e grandes modelos de domínio vertical .

O modelo grande de uso geral é fácil de entender. É um modelo de grande escala que usa uma grande quantidade de dados de uso geral para pré-treinamento . Ele geralmente tem duas características: versatilidade entre tarefas e versatilidade entre domínios.

O modelo de domínio vertical tem muitos aliases, como modelo de domínio, modelo de indústria e modelo vertical, todos significando a mesma coisa. Grandes modelos de domínio vertical referem-se a grandes modelos de linguagem que foram treinados e otimizados em domínios ou setores específicos. Comparado com o modelo geral, o modelo de domínio vertical é mais focado no conhecimento e nas habilidades de um campo específico e possui maior especialização e praticidade do domínio.

Vantagens e desvantagens de grandes modelos em campos verticais

Em comparação com os mock-ups de uso geral, os mock-ups de domínio vertical têm as seguintes vantagens e desvantagens:

Vantagens :

  • Especialização de Domínio : Modelos Grandes de Domínio Vertical são especialmente treinados para entender e processar melhor o conhecimento, a terminologia e o contexto específicos do domínio.
  • Saída de alta qualidade : devido à otimização em um domínio específico, a qualidade de saída dos modelos grandes de domínio vertical é geralmente maior do que a dos modelos grandes de uso geral neste domínio.
  • O desempenho específico da tarefa é melhor : para tarefas específicas do domínio, os modelos grandes de domínio vertical geralmente funcionam melhor do que os modelos grandes de uso geral.

Desvantagens :

  • Requisitos de dados e custos de treinamento : grandes modelos de domínio vertical requerem uma grande quantidade de dados específicos do domínio para treinamento, o que pode enfrentar desafios na coleta e rotulagem de dados.
  • Limitações de adaptabilidade : Modelos grandes de domínio vertical têm forte adaptabilidade em domínios específicos, mas podem ter desempenho relativamente fraco em outros domínios.
  • Custos de atualização e manutenção : como o conhecimento e os requisitos específicos do domínio mudam com frequência, os modelos de domínio vertical precisam ser atualizados e mantidos regularmente para acompanhar os novos desenvolvimentos.

Várias formas de grandes modelos em campos verticais

O modelo de domínio vertical tem as seguintes formas:

  • O ajuste fino do modelo grande geral com base nos dados de campo vertical e o ajuste fino do modelo grande geral usando os dados de campo vertical por meio de alguns métodos de ajuste fino (como LoRA, P-Tuning, etc.) ; claro, há também a base do modelo geral grande com base nos dados de campo vertical, continue o pré-treinamento em
  • Use apenas dados de campo vertical para pré-treinar modelos grandes ;
  • Use uma mistura de dados de domínio vertical e dados gerais para pré-treinar grandes modelos , como BloombergGPT;
  • Use a base de conhecimento de domínio combinada com o modelo geral de grande escala para concluir a pergunta de conhecimento e responda , por exemplo, use Langchain +ChatGLM para concluir a pergunta de conhecimento e responda, especificamente, primeiro use o modelo de vetor de palavras para encontrar o texto semelhante a a pergunta no documento e usar a capacidade de resumo do modelo grande para resumir o texto como saída;

Os itens acima são 4 modelos de grandes dados diferentes em campos verticais, e o primeiro e o quarto são atualmente os principais.

Além dos quatro tipos acima, a construção de prompts em campos verticais pode ser considerada como uma aplicação de modelos gerais em campos verticais: por exemplo, use diretamente o método de aprendizado em contexto para gerar respostas diretamente de modelos gerais grandes construindo campos -prompts relacionados.

Várias visualizações em modelos grandes em domínios verticais

Os pontos com os quais concordo são os seguintes:

  • Usar dados de domínio para pré-treinar um modelo grande do zero pode ter um efeito melhor, mas como os parâmetros de um modelo grande geralmente são relativamente grandes para ter a capacidade de emergir, também requer uma grande quantidade de dados de domínio de alta qualidade.
  • Para o modelo grande no campo vertical, é necessário apenas ter o efeito no campo vertical devido ao modelo grande, e não é necessário ter outros recursos do modelo geral grande.
  • Sob os parâmetros da escala de 7B e 13B, o modelo de domínio é melhor que o modelo geral.

Perguntas frequentes sobre maquetes de domínio

P: Tenho muitos padrões técnicos e dados de texto de domínio. Posso treinar um modelo de domínio grande diretamente fornecendo-o a você?

R: Sim e não, o texto simples só pode ser usado para pré-treinamento do modelo e, para perguntas e respostas de acompanhamento, são necessários dados de instrução. Obviamente, alguns métodos de inteligência artificial podem ser usados ​​para gerar alguns dados de índice, mas, para garantir a factualidade, ainda é necessária a revisão manual. Dados SFT de alta qualidade são a chave para o ajuste fino do modelo.

P: Você usa dados de domínio para ajustar o modelo grande, por que não perguntar e responder diretamente, mas também usar sua base de conhecimento?

R: O conhecimento externo é principalmente para resolver a ilusão do modelo e melhorar a precisão da resposta do modelo. Ao mesmo tempo, usar uma base de conhecimento externa pode atualizar rapidamente o conhecimento, o que é muito mais rápido do que o treinamento do modelo.

Referência:
Vários mitos sobre grandes modelos e direção autônoma
Algumas reflexões sobre grandes modelos no campo vertical e um resumo dos modelos de código aberto
[série LLM] Pensando em grandes modelos na indústria Resumo de grandes modelos
no campo vertical

Acho que você gosta

Origin blog.csdn.net/dzysunshine/article/details/131771398
Recomendado
Clasificación