모델 BERT
작업: 질문 및 답변 추출
질문이 시작되고 끝나는 곳.
데이터 세트
데이터세트 DRCD+ODSQA
먼저 단어를 분할한 다음
기사의 길이가 다르면 토큰화하고 bert의 토큰 길이는 제한되며 일반적으로 512, self-attention 계산량은 O(n 2 ) O(n^2) 입니다.O ( n2 ), 오랫동안 전체 기사를 처리를 위해 보낼 수 없습니다.
기차
정답에 집중하고 고정 길이의 창으로 문제를 찾으십시오. 키워드, 대답은 보통 키워드 근처에 있고, 대답 근처에 창을 그립니다. 클수록 좋습니다. 그런 다음 이러한 조각을 토큰화하고 훈련합니다.
힌트
- 선형 학습률 감소
겹치는 창, 분할이 보이지 않을 수 있기 때문에 일부 부분이 겹칩니다. doc stride 매개변수를 수정합니다.
정답이 반드시 창의 정중앙에 있는 것은 아닙니다.
사전 훈련 모델이 다르면 중국 사전 훈련 모델을 사용하는 것이 좋습니다.
자동 혼합 정밀도, 때로는 고정밀 Float32가 필요하지 않으며 일부 카드에서만 교육 속도를 높이기 위해 지원합니다.
GPU 메모리가 충분하지 않으면 Gradient 누적을 사용하여 누적된 매개변수를 한 번 업데이트할 수 있습니다.
캐글 프로젝트
패키지: pip 설치 변압기