Diretório de artigos

Quais são os modelos grandes?
Vantagens e desvantagens de grandes modelos em campos verticais
Várias formas de grandes modelos em campos verticais
Várias visualizações em modelos grandes em domínios verticais
Perguntas frequentes sobre maquetes de domínio

Antes de falar sobre o modelo grande no campo vertical, vamos fazer uma breve revisão dos modelos grandes atuais para ver o que são os modelos grandes.

Quais são os modelos grandes?

Grandes modelos geralmente podem ser divididos em grandes modelos gerais e grandes modelos de domínio vertical .

O modelo grande de uso geral é fácil de entender. É um modelo de grande escala que usa uma grande quantidade de dados de uso geral para pré-treinamento . Ele geralmente tem duas características: versatilidade entre tarefas e versatilidade entre domínios.

O modelo de domínio vertical tem muitos aliases, como modelo de domínio, modelo de indústria e modelo vertical, todos significando a mesma coisa. Grandes modelos de domínio vertical referem-se a grandes modelos de linguagem que foram treinados e otimizados em domínios ou setores específicos. Comparado com o modelo geral, o modelo de domínio vertical é mais focado no conhecimento e nas habilidades de um campo específico e possui maior especialização e praticidade do domínio.

Vantagens e desvantagens de grandes modelos em campos verticais

Em comparação com os mock-ups de uso geral, os mock-ups de domínio vertical têm as seguintes vantagens e desvantagens:

Vantagens :

Especialização de Domínio : Modelos Grandes de Domínio Vertical são especialmente treinados para entender e processar melhor o conhecimento, a terminologia e o contexto específicos do domínio.
Saída de alta qualidade : devido à otimização em um domínio específico, a qualidade de saída dos modelos grandes de domínio vertical é geralmente maior do que a dos modelos grandes de uso geral neste domínio.
O desempenho específico da tarefa é melhor : para tarefas específicas do domínio, os modelos grandes de domínio vertical geralmente funcionam melhor do que os modelos grandes de uso geral.

Desvantagens :

Requisitos de dados e custos de treinamento : grandes modelos de domínio vertical requerem uma grande quantidade de dados específicos do domínio para treinamento, o que pode enfrentar desafios na coleta e rotulagem de dados.
Limitações de adaptabilidade : Modelos grandes de domínio vertical têm forte adaptabilidade em domínios específicos, mas podem ter desempenho relativamente fraco em outros domínios.
Custos de atualização e manutenção : como o conhecimento e os requisitos específicos do domínio mudam com frequência, os modelos de domínio vertical precisam ser atualizados e mantidos regularmente para acompanhar os novos desenvolvimentos.

Várias formas de grandes modelos em campos verticais

O modelo de domínio vertical tem as seguintes formas:

O ajuste fino do modelo grande geral com base nos dados de campo vertical e o ajuste fino do modelo grande geral usando os dados de campo vertical por meio de alguns métodos de ajuste fino (como LoRA, P-Tuning, etc.) ; claro, há também a base do modelo geral grande com base nos dados de campo vertical, continue o pré-treinamento em
Use apenas dados de campo vertical para pré-treinar modelos grandes ;
Use uma mistura de dados de domínio vertical e dados gerais para pré-treinar grandes modelos , como BloombergGPT;
Use a base de conhecimento de domínio combinada com o modelo geral de grande escala para concluir a pergunta de conhecimento e responda , por exemplo, use Langchain +ChatGLM para concluir a pergunta de conhecimento e responda, especificamente, primeiro use o modelo de vetor de palavras para encontrar o texto semelhante a a pergunta no documento e usar a capacidade de resumo do modelo grande para resumir o texto como saída;

Os itens acima são 4 modelos de grandes dados diferentes em campos verticais, e o primeiro e o quarto são atualmente os principais.

Além dos quatro tipos acima, a construção de prompts em campos verticais pode ser considerada como uma aplicação de modelos gerais em campos verticais: por exemplo, use diretamente o método de aprendizado em contexto para gerar respostas diretamente de modelos gerais grandes construindo campos -prompts relacionados.

Várias visualizações em modelos grandes em domínios verticais

Os pontos com os quais concordo são os seguintes:

Usar dados de domínio para pré-treinar um modelo grande do zero pode ter um efeito melhor, mas como os parâmetros de um modelo grande geralmente são relativamente grandes para ter a capacidade de emergir, também requer uma grande quantidade de dados de domínio de alta qualidade.
Para o modelo grande no campo vertical, é necessário apenas ter o efeito no campo vertical devido ao modelo grande, e não é necessário ter outros recursos do modelo geral grande.
Sob os parâmetros da escala de 7B e 13B, o modelo de domínio é melhor que o modelo geral.

Perguntas frequentes sobre maquetes de domínio

P: Tenho muitos padrões técnicos e dados de texto de domínio. Posso treinar um modelo de domínio grande diretamente fornecendo-o a você?

R: Sim e não, o texto simples só pode ser usado para pré-treinamento do modelo e, para perguntas e respostas de acompanhamento, são necessários dados de instrução. Obviamente, alguns métodos de inteligência artificial podem ser usados para gerar alguns dados de índice, mas, para garantir a factualidade, ainda é necessária a revisão manual. Dados SFT de alta qualidade são a chave para o ajuste fino do modelo.

P: Você usa dados de domínio para ajustar o modelo grande, por que não perguntar e responder diretamente, mas também usar sua base de conhecimento?

R: O conhecimento externo é principalmente para resolver a ilusão do modelo e melhorar a precisão da resposta do modelo. Ao mesmo tempo, usar uma base de conhecimento externa pode atualizar rapidamente o conhecimento, o que é muito mais rápido do que o treinamento do modelo.

Referência:
Vários mitos sobre grandes modelos e direção autônoma
Algumas reflexões sobre grandes modelos no campo vertical e um resumo dos modelos de código aberto
[série LLM] Pensando em grandes modelos na indústria Resumo de grandes modelos
no campo vertical

Falando sobre modelos grandes em campos verticais