Diretório de artigos
Antes de falar sobre o modelo grande no campo vertical, vamos fazer uma breve revisão dos modelos grandes atuais para ver o que são os modelos grandes.
Quais são os modelos grandes?
Grandes modelos geralmente podem ser divididos em grandes modelos gerais e grandes modelos de domínio vertical .
O modelo grande de uso geral é fácil de entender. É um modelo de grande escala que usa uma grande quantidade de dados de uso geral para pré-treinamento . Ele geralmente tem duas características: versatilidade entre tarefas e versatilidade entre domínios.
O modelo de domínio vertical tem muitos aliases, como modelo de domínio, modelo de indústria e modelo vertical, todos significando a mesma coisa. Grandes modelos de domínio vertical referem-se a grandes modelos de linguagem que foram treinados e otimizados em domínios ou setores específicos. Comparado com o modelo geral, o modelo de domínio vertical é mais focado no conhecimento e nas habilidades de um campo específico e possui maior especialização e praticidade do domínio.
Vantagens e desvantagens de grandes modelos em campos verticais
Em comparação com os mock-ups de uso geral, os mock-ups de domínio vertical têm as seguintes vantagens e desvantagens:
Vantagens :
- Especialização de Domínio : Modelos Grandes de Domínio Vertical são especialmente treinados para entender e processar melhor o conhecimento, a terminologia e o contexto específicos do domínio.
- Saída de alta qualidade : devido à otimização em um domínio específico, a qualidade de saída dos modelos grandes de domínio vertical é geralmente maior do que a dos modelos grandes de uso geral neste domínio.
- O desempenho específico da tarefa é melhor : para tarefas específicas do domínio, os modelos grandes de domínio vertical geralmente funcionam melhor do que os modelos grandes de uso geral.
Desvantagens :
- Requisitos de dados e custos de treinamento : grandes modelos de domínio vertical requerem uma grande quantidade de dados específicos do domínio para treinamento, o que pode enfrentar desafios na coleta e rotulagem de dados.
- Limitações de adaptabilidade : Modelos grandes de domínio vertical têm forte adaptabilidade em domínios específicos, mas podem ter desempenho relativamente fraco em outros domínios.
- Custos de atualização e manutenção : como o conhecimento e os requisitos específicos do domínio mudam com frequência, os modelos de domínio vertical precisam ser atualizados e mantidos regularmente para acompanhar os novos desenvolvimentos.
Várias formas de grandes modelos em campos verticais
O modelo de domínio vertical tem as seguintes formas:
- O ajuste fino do modelo grande geral com base nos dados de campo vertical e o ajuste fino do modelo grande geral usando os dados de campo vertical por meio de alguns métodos de ajuste fino (como LoRA, P-Tuning, etc.) ; claro, há também a base do modelo geral grande com base nos dados de campo vertical, continue o pré-treinamento em
- Use apenas dados de campo vertical para pré-treinar modelos grandes ;
- Use uma mistura de dados de domínio vertical e dados gerais para pré-treinar grandes modelos , como BloombergGPT;
- Use a base de conhecimento de domínio combinada com o modelo geral de grande escala para concluir a pergunta de conhecimento e responda , por exemplo, use Langchain +ChatGLM para concluir a pergunta de conhecimento e responda, especificamente, primeiro use o modelo de vetor de palavras para encontrar o texto semelhante a a pergunta no documento e usar a capacidade de resumo do modelo grande para resumir o texto como saída;
Os itens acima são 4 modelos de grandes dados diferentes em campos verticais, e o primeiro e o quarto são atualmente os principais.
Além dos quatro tipos acima, a construção de prompts em campos verticais pode ser considerada como uma aplicação de modelos gerais em campos verticais: por exemplo, use diretamente o método de aprendizado em contexto para gerar respostas diretamente de modelos gerais grandes construindo campos -prompts relacionados.
Várias visualizações em modelos grandes em domínios verticais
Os pontos com os quais concordo são os seguintes:
- Usar dados de domínio para pré-treinar um modelo grande do zero pode ter um efeito melhor, mas como os parâmetros de um modelo grande geralmente são relativamente grandes para ter a capacidade de emergir, também requer uma grande quantidade de dados de domínio de alta qualidade.
- Para o modelo grande no campo vertical, é necessário apenas ter o efeito no campo vertical devido ao modelo grande, e não é necessário ter outros recursos do modelo geral grande.
- Sob os parâmetros da escala de 7B e 13B, o modelo de domínio é melhor que o modelo geral.
Perguntas frequentes sobre maquetes de domínio
P: Tenho muitos padrões técnicos e dados de texto de domínio. Posso treinar um modelo de domínio grande diretamente fornecendo-o a você?
R: Sim e não, o texto simples só pode ser usado para pré-treinamento do modelo e, para perguntas e respostas de acompanhamento, são necessários dados de instrução. Obviamente, alguns métodos de inteligência artificial podem ser usados para gerar alguns dados de índice, mas, para garantir a factualidade, ainda é necessária a revisão manual. Dados SFT de alta qualidade são a chave para o ajuste fino do modelo.
P: Você usa dados de domínio para ajustar o modelo grande, por que não perguntar e responder diretamente, mas também usar sua base de conhecimento?
R: O conhecimento externo é principalmente para resolver a ilusão do modelo e melhorar a precisão da resposta do modelo. Ao mesmo tempo, usar uma base de conhecimento externa pode atualizar rapidamente o conhecimento, o que é muito mais rápido do que o treinamento do modelo.
Referência:
Vários mitos sobre grandes modelos e direção autônoma
Algumas reflexões sobre grandes modelos no campo vertical e um resumo dos modelos de código aberto
[série LLM] Pensando em grandes modelos na indústria Resumo de grandes modelos
no campo vertical