기계 학습: 질문에 대한 답변 추출

여기에 이미지 설명 삽입

모델 BERT

여기에 이미지 설명 삽입

작업: 질문 및 답변 추출

여기에 이미지 설명 삽입

질문이 시작되고 끝나는 곳.

데이터 세트

여기에 이미지 설명 삽입
데이터세트 DRCD+ODSQA
여기에 이미지 설명 삽입

여기에 이미지 설명 삽입

여기에 이미지 설명 삽입

여기에 이미지 설명 삽입
먼저 단어를 분할한 다음
여기에 이미지 설명 삽입
여기에 이미지 설명 삽입
기사의 길이가 다르면 토큰화하고 bert의 토큰 길이는 제한되며 일반적으로 512, self-attention 계산량은 O(n 2 ) O(n^2) 입니다.O ( n2 ), 오랫동안 전체 기사를 처리를 위해 보낼 수 없습니다.

기차

여기에 이미지 설명 삽입
정답에 집중하고 고정 길이의 창으로 문제를 찾으십시오. 키워드, 대답은 보통 키워드 근처에 있고, 대답 근처에 창을 그립니다. 클수록 좋습니다. 그런 다음 이러한 조각을 토큰화하고 훈련합니다.

여기에 이미지 설명 삽입

힌트

여기에 이미지 설명 삽입
여기에 이미지 설명 삽입

  • 선형 학습률 감소
    여기에 이미지 설명 삽입

여기에 이미지 설명 삽입
겹치는 창, 분할이 보이지 않을 수 있기 때문에 일부 부분이 겹칩니다. doc stride 매개변수를 수정합니다.

여기에 이미지 설명 삽입
정답이 반드시 창의 정중앙에 있는 것은 아닙니다.

여기에 이미지 설명 삽입
사전 훈련 모델이 다르면 중국 사전 훈련 모델을 사용하는 것이 좋습니다.

여기에 이미지 설명 삽입
여기에 이미지 설명 삽입
여기에 이미지 설명 삽입
자동 혼합 정밀도, 때로는 고정밀 Float32가 필요하지 않으며 일부 카드에서만 교육 속도를 높이기 위해 지원합니다.

여기에 이미지 설명 삽입
GPU 메모리가 충분하지 않으면 Gradient 누적을 사용하여 누적된 매개변수를 한 번 업데이트할 수 있습니다.

여기에 이미지 설명 삽입

캐글 프로젝트

여기에 이미지 설명 삽입

여기에 이미지 설명 삽입
패키지: pip 설치 변압기
여기에 이미지 설명 삽입

Supongo que te gusta

Origin blog.csdn.net/uncle_ll/article/details/131990791
Recomendado
Clasificación