Algumas armadilhas e julgamentos do treinamento de modelo grande

Antes que o chatgpt seja totalmente reproduzido, essas coisas são os julgamentos do Sr. Bao com base em informações públicas e experiência prática. Eles são apenas para referência e todas as conclusões podem ser anuladas por novas tecnologias.

1. Uma partida a frio pode ser um grande problema.

O processo de treinamento do modelo grande é passo a passo o modelo de linguagem obtido de toda a rede de dados aproximando-se gradualmente dos hábitos linguísticos das pessoas.

O pré-treinamento é para inicialização a frio SFT e SFT é para inicialização a frio RL.

Em cada enlace independente também é necessário um cold start.Por exemplo, LLama2 mencionou um método bootstrap SFT, um método de amostragem iterativo e rejeitado em RL .

O pré-treinamento permite que o grande modelo tenha reservas básicas de conhecimento e generalização do modelo de linguagem, o que dá ao SFT uma boa inicialização, reduz o consumo de dados no estágio SFT e permite alinhar inicialmente os hábitos das pessoas.

O SFT é mais como uma habilidade de inicialização a frio para a amostragem no estágio RL, evitando que as coisas amostradas excedam o círculo de capacidade de discriminação do RM e tornando-o o mais próximo possível dos intervalos bons e ruins definidos pelo RM.

No entanto, o custo de construção de dados do SFT é muito alto. Por exemplo, existem dados gpt na China e a capacidade de destilar gpt por meio do SFT é bastante intuitiva. Se não houver boa mão de obra e recursos materiais, também é um método.

Comparado com o processo de treinamento RL, o limite superior da capacidade de generalização do SFT é relativamente ruim, porque sempre há um fim para os dados, e dados de alta qualidade são ainda mais difíceis. O treinamento direto é mais como um guia de direção. O Estágio SFT Uma partida a frio também pode ser necessária.

Finalmente, no estágio RL, a geração infinita de dados é entregue ao processo de amostragem, e o processo de julgar bom ou ruim é entregue ao RM. Durante esse processo, os recursos do LLM e do RM precisam evoluir de forma síncrona para evitar que o RM perca seu julgamento quando o LLM é muito forte . Essa é a atualização iterativa do llama2 que vemos.


2. A água em RM é profunda

O objetivo do processo RL é muito claro. A ideia do PPO clássico é muito intuitiva. A chave para resolver o problema é a estabilidade do RL usado no LLM.

A estabilidade pode ser considerada como tendo algumas coisas claras orientadas para a tecnologia, como adicionar "referência normal" no processo de aprendizado para evitar que o processo de aprendizado seja muito agressivo, etc., para que ele possa tentar manter uma melhor capacidade de LLM em vez de simplesmente ajustando pontuações altas.

Mas aqui no RM, existem muitos poços profundos, e existe um fenômeno chamado hacking de recompensa , que aparece com frequência.

O espaço de estratégia do LLM é muito aberto, ao contrário dos jogos de RL, existem apenas algumas combinações de teclas de AABB para cima e para baixo.

Qual palavra escolher no vocabulário do LLM e qual sequência as palavras formam são uma estratégia.

A tomada de decisão aberta é muito difícil para o ambiente de pontuação de simulação e possui requisitos extremamente altos para a generalização do RM.

Supondo um cenário, se o seu LLM tiver um caso ruim, você deseja definir todos os casos ruins conhecidos como ruins no RM e defini-los como bons se os dados de pontuação forem normais.

Em seguida, use o rm para identificar casos ruins para aprendizado por reforço, tentando eliminar todos os casos ruins.Essa ideia intuitiva tem enormes buracos.

Você descobrirá que o que seu RL finalmente aprende é um padrão desconhecido de pontuação alta e encontra outro caso ruim como padrão de pontuação alta além do seu caso ruim.

É como uma formiga andando sobre papel branco, cercada por grandes fossos, só um pedacinho de terra é seguro, ela anda aleatoriamente, e você fica digitando X na direção ruim que ela passa.

Acontece que existem infinitas direções ruins e não há fim para isso.

No final, há uma grande probabilidade de que seu modelo aprenda a produzir um monte de coisas inúteis, mas a pontuação de RM é muito alta.

Isso é hacking de recompensa.

Se você não melhorar essencialmente a capacidade de pontuação onisciente do RM, apenas confiar no aumento da penalidade de divergência KL, recorte de valor etc., aliviará a ocorrência do problema em vez de resolvê-lo fundamentalmente.

A última bolsa. .

Isso se reflete no processo do artigo LLama2. A meta equipe presta muita atenção em manter a capacidade do RM. Quando for descoberto que o RM perde seu julgamento, ele será atualizado e iterado no tempo.

Evite que a RL encoraje coisas estranhas.

A habilidade do RM não se reflete apenas na generalização, mas também no grau de diferenciação, por isso vimos que a meta moveu a margem no rosto . .


3. O trade-off entre eficiência e efeito

Além da otimização de hardware e pipeline, construção de amostras, existem muitos desses pontos de otimização no processo de aprendizado.

Por exemplo, o truque de construção de várias rodadas de diálogo mencionado acima, o truque de ajuste fino de modelo grande de construção de amostra , este é um método que pode melhorar muito a eficiência do aprendizado e também vimos a mesma ideia em LLama2.

No entanto, llama fez algo mais escandaloso e radical, reunindo diferentes sessões. O token especial passado distingue os módulos, esse detalhe precisa ser confirmado.

Considera-se aqui que existe um terminador especial que separa diferentes sessões, e o terminador comum é semelhante ao <eos> para dividir as rodadas.

Além da estrutura de dados, também há algumas compensações de eficiência e efeito no processo de aprendizado. Métodos como o DPO podem economizar o tempo da amostragem do PPO.

Quando o DPO se alinha, ele converte a pressão do RM e da amostragem na pressão dos dados de rotulagem.

Este método também pode melhorar a eficiência do treinamento, mas no estágio de alinhamento parece muito difícil buscar a quantidade absoluta de dados. Todos basicamente usam dados relativamente pequenos com alta qualidade e dados de alta qualidade e usam o RM obtido do LLM existente base para treinar.

O método DPO parece ir na direção oposta. Você precisa cobrar dinheiro suficiente e marcar dados suficientes. Resta verificar se o efeito pode atingir o teto do PPO.

Eficiência e efeito são sempre um trade-off.Na última etapa, LLama2 optou por sacrificar a eficiência para obter qualidade , e usou o método de rejeição de amostragem para evitar que algumas surpresas desconhecidas fossem aprendidas durante o processo de RL.

Essa seleção de multiamostragem basicamente aumenta o consumo de recursos por um múltiplo do número de vezes de amostragem.

No geral, quanto mais perto da parte de trás do pipeline, mais atenção deve ser dada à qualidade . Claro, quanto mais perto da parte de trás, o consumo real de recursos no todo é relativamente pequeno, então alguma eficiência pode ser relativamente sacrificada .

Parece que o DPO não é muito científico, mas rejeitar a amostragem é uma solução relativamente razoável.


4. A avaliação do modelo em grande escala é crítica e a água é muito profunda.

Já escrevi uma avaliação de modelo grande antes , é muito difícil e é muito difícil treinar com um modelo grande! Algumas razões são resumidas nele. O ponto chave é que se a avaliação não for bem feita, ela afetará a eficiência do experimento. A eficiência do experimento pode ser convertida no consumo de energia computacional por unidade de tempo.

Pode-se deduzir que má avaliação = caro e demorado.

Então você é lento para fazer experimentos, o que equivale a ter menos GPUs do que outras, o que é chocante o suficiente.

Openai não só tem mais cartas, mas também tem um buff que dobra a eficiência experimental, que é equivalente ao múltiplo de eficiência de cartas.

Até o momento, não há nenhum método de avaliação automatizado particularmente confiável disponível ao público


5. A água no aparador a jusante é muito profunda.

O que todos pensam é que eu marco alguns dados de domínio e, em seguida, executo SFT e alinhamento nos dados de domínio, para que possam ser usados ​​para recursos adicionais no domínio.

Aqui nós o dividimos em duas situações: Se você o considera como um modelo de cena única, não há problema em usá-lo como bert T5.

Se você quiser deixá-lo manter a capacidade do modelo grande original e depois incorporar algum conhecimento adicional, a dificuldade aqui é muito grande.

Na prática, você descobrirá que não é bem assim, basicamente você colheu sementes de gergelim e perdeu a melancia, a menos que só se preocupe em colher sementes de gergelim.

Depois de tentar, descobri que é muito fácil ajustar demais aos dados do domínio se apenas os dados do domínio forem usados, e o processamento do OOD será muito ruim.

Se você deseja manter os recursos originais, os requisitos para a proporção de dados de cada link serão muito altos. É melhor adicionar dados de cena adicionais à escala de dados original e passar por parte do processo novamente.

Mas a dificuldade é que os dados originais mantêm uma amostragem distribuída, e o modelo que você obtém é uma caixa preta.Outros não lhe deram a distribuição original dos dados, sem falar na limpeza detalhada do mar.

Portanto, o modelo final de grande domínio é quase apenas um modelo de geração de domínio que perdeu suas capacidades gerais e básicas.

Quanto a se você quiser que ele aprofunde sua habilidade em uma determinada direção e evite que a habilidade original caia, o custo total não será menor do que remodelar um modelo geral.

Acho que você gosta

Origin blog.csdn.net/weixin_48827824/article/details/132165368
Recomendado
Clasificación