[기계 번역 비 자동 회귀 버전]의 CH2-NLG 응용 프로그램

2018, 구 등은 제안 된 새로운 기계 번역 모델 번역 과정이 병렬 처리 될 수 있도록하는 것이,이 모델 번역 차례로 왼쪽에서 오른쪽으로 더 이상 순서를.

자체는 여전히 기초 모델 Transformer의 차이는 시험의 병렬 디코딩한다. 아래와 같이 구조 모델 :

병렬의 결과를 산출 할 때, 서로 다른 위치 사이에서 단어 문제 독립 트레이닝 샘플 복합 타겟 분포의 존재로 인한 문제에 기인. 좋은 진입 점을 찾아 도움 실시 디코더 디코딩에 숨겨진 변수를 도입하여 공간 모드를 줄일 수 있습니다. 용지가 채택 동시에 knowledge distillation방법, 도움을 자동 회귀 모델을 사용 모델을 훈련을, 또한 아주 좋은 방법입니다. 이러한 모델에서 최종한다는 non-auto-regressive경우가 경우, 달성하는 auto-regressive모델의 효과.

TODO 특정 독서 신문

게시 된 120 개 원래 기사 · 원의 찬양 (35) · 전망 170 000 +

추천

출처blog.csdn.net/u012328476/article/details/104122203