Meta의 Belebele: 기계 독해력의 놀라운 발전! 122개 언어 변형을 다루는 객관식 기계 독해(MRC) 데이터세트입니다. 이 데이터 세트는 고급, 중간, 저자원 언어에 대한 단일 언어 및 다국어 모델을 평가할 수 있습니다.

최근 Meta에서 Belebele을 출시했습니다! 122개 언어 변형을 다루는 객관식 기계 독해(MRC) 데이터세트입니다. 이 데이터 세트를 사용하면 고급, 중간, 저자원 언어에 대한 단일 언어 및 다국어 모델을 평가할 수 있습니다.

모든 질문은 기사와 직접적으로 관련되어 있지만 영어 데이터 세트는 그 자체로 최첨단 언어 모델에 도전하기에 충분한 것으로 입증되었습니다. 완전한 병렬성으로 인해 이 데이터 세트를 사용하면 모든 언어의 모델 성능을 직접 비교할 수 있습니다.

일하다

언어 변형당 900개의 질문
488개의 다양한 구절, 각 구절에는 1-2개의 관련 질문이 있습니다.
각 질문에는 4개의 객관식 답변이 있으며 그 중 1개만 정답입니다.
122개 언어/언어 변형(영어 포함).
총 900 x 122 = 109,800개의 질문입니다.

트레이닝 세트

Belebele 데이터 세트는 테스트 세트로만 사용되며 훈련이나 검증에는 사용되지 않습니다. 따라서 추가 작업별 교육이 필요한 모델의 경우 기존 영어 객관식 QA 데이터 세트의 샘플로 구성된 조립된 교육 세트를 사용하는 것이 좋습니다.

연구원들은 다양한 데이터 세트를 고려하여 RACE, SciQ, MultiRC, MCTest, MCScript2.0 및 ReClor와 같이 가장 호환되는 데이터 세트를 식별했습니다.

6개의 데이터 세트 각각에 대해 구절과 질문이 압축을 풀고 해당 형식으로 재구성되었습니다. 그런 다음 적합하지 않은 샘플(예: 정답이 여러 개인 질문)을 필터링합니다.

마지막으로 데이터세트에는 67.5,000개의 훈련 샘플과 3.7,000개의 개발 샘플이 포함되어 있으며, 그 중 절반 이상이 RACE에서 가져온 것입니다. Meta는 누구나 작업 미세 조정을 수행할 수 있도록 이 데이터 세트를 재구성하는 스크립트(assemble_training_set.py)를 제공합니다.

데이터 세트 주소

https://github.com/facebookresearch/belebele

Supongo que te gusta

Origin blog.csdn.net/iCloudEnd/article/details/132900855
Recomendado
Clasificación