o desempenho de inferência de bert é indiscutível e aplicado a tarefas reais.Na verdade, o foco está em como melhorar a velocidade da inferência. albert é a racionalização e otimização do bert, que pode ser aplicada aos projetos. Recentemente, fiz um teste:
1. Fonte de dados: o novo conjunto de dados, todos são textos curtos, 15 categorias, e o formulário é o seguinte
2. Modelo albert original, ~ 16M, como segue
3. Ajuste o modelo ckpt, ~ 50M, da seguinte maneira
4. Desempenho de inferência, PQS é o seguinte
Pode-se observar que o PQS de bert ainda é possível no caso de gpu.Se estiver equipado com uma estrutura de serviço, deve haver uma melhoria maior