Nota de uso de BERT

La convención en BERT es:

    (a) Para pares de secuencias:

          tokens: [CLS] ¿es este jack ## son ## ville? [SEP] no, no lo es. [SEP]

          type_ids: 0 0 0 0 0 0 0 0 1 1 1 1 1 1

 

    (b) Para secuencias simples:

          tokens: [CLS] el perro es peludo. [SEP]

          type_ids: 0 0 0 0 0 0 0

        

      Donde "type_ids" se utilizan para indicar si esta es la primera secuencia o la segunda secuencia. 

      Los vectores de incrustación para `type = 0` y` type = 1` se aprendieron durante el entrenamiento previo y se agregan al wordpiece

      vector de incrustación (y vector de posición). 

 

      Esto no es * estrictamente * necesario ya que el token [SEP] separa inequívocamente las secuencias, pero hace

      es más fácil para el modelo aprender el concepto de sucesiones.

        

      Para las tareas de clasificación, el primer vector (correspondiente a [CLS]) se utiliza como "vector de oración".

      Tenga en cuenta que esto solo tiene sentido porque todo el modelo está ajustado.

 

 

Supongo que te gusta

Origin blog.csdn.net/sdaujz/article/details/110370950
Recomendado
Clasificación