La convención en BERT es:
(a) Para pares de secuencias:
tokens: [CLS] ¿es este jack ## son ## ville? [SEP] no, no lo es. [SEP]
type_ids: 0 0 0 0 0 0 0 0 1 1 1 1 1 1
(b) Para secuencias simples:
tokens: [CLS] el perro es peludo. [SEP]
type_ids: 0 0 0 0 0 0 0
Donde "type_ids" se utilizan para indicar si esta es la primera secuencia o la segunda secuencia.
Los vectores de incrustación para `type = 0` y` type = 1` se aprendieron durante el entrenamiento previo y se agregan al wordpiece
vector de incrustación (y vector de posición).
Esto no es * estrictamente * necesario ya que el token [SEP] separa inequívocamente las secuencias, pero hace
es más fácil para el modelo aprender el concepto de sucesiones.
Para las tareas de clasificación, el primer vector (correspondiente a [CLS]) se utiliza como "vector de oración".
Tenga en cuenta que esto solo tiene sentido porque todo el modelo está ajustado.