2018, 구 등은 제안 된 새로운 기계 번역 모델 번역 과정이 병렬 처리 될 수 있도록하는 것이,이 모델 번역 차례로 왼쪽에서 오른쪽으로 더 이상 순서를.
자체는 여전히 기초 모델 Transformer
의 차이는 시험의 병렬 디코딩한다. 아래와 같이 구조 모델 :
병렬의 결과를 산출 할 때, 서로 다른 위치 사이에서 단어 문제 독립 트레이닝 샘플 복합 타겟 분포의 존재로 인한 문제에 기인. 좋은 진입 점을 찾아 도움 실시 디코더 디코딩에 숨겨진 변수를 도입하여 공간 모드를 줄일 수 있습니다. 용지가 채택 동시에 knowledge distillation
방법, 도움을 자동 회귀 모델을 사용 모델을 훈련을, 또한 아주 좋은 방법입니다. 이러한 모델에서 최종한다는 non-auto-regressive
경우가 경우, 달성하는 auto-regressive
모델의 효과.
TODO 특정 독서 신문