오픈 소스 대형 모델 문서

리더보드

익명의 무작위 전투를 크라우드소싱하는 대규모 언어 모델(LLM)의 벤치마크 플랫폼인 Chatbot Arena를 소개합니다. 이 블로그 게시물에서는 체스 및 기타 경쟁 게임에서 널리 사용되는 평가 시스템인 Elo 평가 시스템을 기반으로 예비 결과와 순위표를 게시합니다. 우리는 전체 커뮤니티가 이 노력에 동참하도록 초대하고, 새로운 모델을 제공하고 질문을 하고 가장 좋아하는 답변에 투표하여 모델을 평가합니다.
여기에 이미지 설명 삽입

1.라마

LLaMA 프로젝트는 매개변수 크기가 70억에서 650억에 이르는 일련의 기본 언어 모델로 구성됩니다. 이러한 모델은 수백만 개의 토큰에 대해 학습되며 공개적으로 사용 가능한 데이터 세트에 대해 전적으로 학습됩니다. 결과적으로 LLaMA-13B는 GPT-3(175B)을 능가하는 반면 LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 같은 최고의 모델과 유사한 성능을 발휘합니다.

여기에 이미지 설명 삽입
여기에 이미지 설명 삽입

자원:

  • 연구 논문: "LLaMA: Open and Efficient Foundation Language Models (arxiv.org)" [https://arxiv.org/abs/2302.13971]
  • GitHub: facebookresearch/llama [https://github.com/facebookresearch/llama]
  • 연시:Baize Lora 7B [https://huggingface.co/spaces/project-baize/Baize-7B]

2.중국-라마-알파카

ChatGPT, GPT-4 등으로 대표되는 LLM(Large Language Model)은 일반 인공지능(AGI)의 능력을 보여주면서 자연어 처리 분야 연구의 새로운 지평을 열었고, 업계 . 그러나 대규모 언어 모델의 교육 및 배포 비용이 매우 높기 때문에 투명하고 개방적인 학술 연구를 구축하는 데 특정 장애물이 발생했습니다.

중국 NLP 커뮤니티에서 대형 모델의 공개 연구를 촉진하기 위해 이 프로젝트는 중국 LLaMA 모델과 Alpaca 대형 모델을 미세 조정된 지침으로 오픈 소스화했습니다 . 원본 LLaMA를 기반으로 하는 이 모델은 중국어 어휘를 확장 하고 중국어 데이터를 2차 사전 훈련에 사용하여 중국어의 기본 의미론적 이해를 더욱 향상시킵니다. 동시에 Chinese Alpaca 모델은 미세 조정을 위해 중국어 명령 데이터를 추가로 사용하여 명령을 이해하고 실행하는 모델의 능력을 크게 향상시킵니다.

여기에 이미지 설명 삽입

자원:

  • GitHub: https://github.com/ymcui/Chinese-LLaMA-Alpaca

3.알파카

Stanford의 Alpaca는 ChatGPT와 경쟁할 수 있으며 누구나 600달러 미만으로 복제할 수 있다고 주장합니다. Alpaca 7B는 52K 명령 준수 시연을 통해 LLaMA 7B 모델에서 미세 조정되었습니다.

여기에 이미지 설명 삽입

자원:

  • 블로그: 스탠포드 CRFM. [https://crfm.stanford.edu/2023/03/13/alpaca.html]
  • GitHub: tatsu-lab/stanford_alpaca [https://github.com/tatsu-lab/stanford_alpaca]

4.알파카-로라

LoRA(Low Rank Adaptation)를 사용하여 Stanford Alpaca 결과를 재현하는 코드

자원:

  • GitHub: https://github.com/tloen/alpaca-lora
  • 데모: Alpaca-LoRA [https://huggingface.co/spaces/tloen/alpaca-lora]

5. 비쿠나

Vicuna는 ShareGPT에서 수집한 사용자의 공유 대화에 대한 LLaMA 모델을 기반으로 미세 조정됩니다. Vicuna-13B 모델은 OpenAI ChatGPT 및 Google Bard의 90% 이상의 품질에 도달했습니다. 또한 LLaMA 및 Stanford Alpaca 모델보다 90% 더 성능이 뛰어납니다. 비쿠나를 훈련시키는 데는 약 300달러가 든다.

그림

자원:

  • 블로그 게시물: "Vicuna: 90%* ChatGPT 품질로 GPT-4를 감동시키는 오픈 소스 챗봇" [https://vicuna.lmsys.org/]
  • GitHub: lm-sys/FastChat [https://github.com/lm-sys/FastChat#fine-tuning]
  • 데모: FastChat(lmsys.org) [https://chat.lmsys.org/]

6.OpenChatKit

OpenChatKit: 오픈 소스 ChatGPT 대안, 챗봇 생성을 위한 완전한 툴킷. 사용자 자신의 명령 튜닝, 미세 조정 모델, 봇 응답 업데이트를 위한 확장 가능한 검색 시스템 및 질문 필터링을 위한 봇 조정 지침을 교육하기 위한 대규모 언어 모델을 제공합니다.

여기에 이미지 설명 삽입

질문 답변, 추출 및 분류 작업에서 GPT-NeoXT-Chat-Base-20B 모델이 기본 모델인 GPT-NoeX보다 성능이 우수함을 알 수 있습니다.

자원:

  • 블로그 게시물: "OpenChatKit 발표"—TOGETHER [https://www.together.xyz/blog/openchatkit]
  • GitHub: Togethercomputer/OpenChatKit [https://github.com/togethercomputer/OpenChatKit]
  • 데모: OpenChatKit [https://huggingface.co/spaces/togethercomputer/OpenChatKit]
  • 모델 카드: Togethercomputer/GPT-NeoXT-Chat-Base-20B [https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B]

7.GPT4ALL

GPT4ALL은 커뮤니티 중심의 프로젝트이며 코드, 스토리, 설명 및 여러 차례의 대화를 포함하여 대규모 보조 상호 작용 코퍼스에 대해 교육을 받았습니다. 팀은 오픈 소스를 용이하게 하기 위해 데이터 세트, 모델 가중치, 데이터 관리 절차 및 교육 코드를 제공했습니다. 또한 노트북에서 실행할 수 있는 모델의 양자화된 4비트 버전을 출시했습니다. Python 클라이언트를 사용하여 모델 추론을 실행하는 것도 가능합니다.
여기에 이미지 설명 삽입

  • 기술 보고서: GPT4All [https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf]
  • GitHub: nomic-ai/gpt4al [https://github.com/nomic-ai/gpt4all]
  • 데모: GPT4All(비공식). [https://huggingface.co/spaces/rishiraj/GPT4All]
  • 모델 카드: nomic-ai/gpt4all-lora 포옹하는 얼굴 [https://huggingface.co/nomic-ai/gpt4all-lora]

8.레이븐 RWKV

Raven RWKV 7B는 ChatGPT와 유사한 결과를 생성하는 RWKV 언어 모델로 구동되는 오픈 소스 챗봇입니다. 이 모델은 품질과 확장성 측면에서 Transformer와 일치하는 RNN을 사용하는 동시에 더 빠르고 VRAM을 절약합니다. Raven은 Stanford Alpaca, code-alpaca 및 기타 데이터 세트에서 미세 조정되었습니다.

여기에 이미지 설명 삽입

자원:

  • GitHub: BlinkDL/ChatRWKV [https://github.com/BlinkDL/ChatRWKV]
  • 데모: Raven RWKV 7B [https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B]
  • 모델 카드: BlinkDL/rwkv-4-raven [https://huggingface.co/BlinkDL/rwkv-4-raven]

9.옵션

OPT: Open Pre-trained Transformer 언어 모델은 ChatGPT만큼 강력하지는 않지만 제로 및 퓨샷 학습 및 스테레오타입 편향 분석에서 뛰어난 기능을 보여줍니다. 더 나은 결과를 위해 Alpa, Colossal-AI, CTranslate2 및 FasterTransformer와 통합하는 것도 가능합니다. **참고:** 텍스트 생성 카테고리에서 624,710개의 월간 다운로드를 기록하여 인기로 인해 목록에 올랐습니다.

여기에 이미지 설명 삽입

자원:

  • 연구 논문: "OPT: Open Pre-trained Transformer Language Models (arxiv.org)" [https://arxiv.org/abs/2205.01068]
  • GitHub: facebookresearch/metaseq [https://github.com/facebookresearch/metaseq]
  • 데모: LLM용 워터마크 [https://huggingface.co/spaces/tomg-group-umd/lm-watermarking]
  • 모델 카드: facebook/opt-1.3b [https://huggingface.co/facebook/opt-1.3b]

10.플랜-T5-XXL

Flan-T5-XXL은 지침 형식으로 표현된 데이터 세트에서 T5 모델을 미세 조정합니다. 명령의 미세 조정은 PaLM, T5 및 U-PaLM과 같은 다양한 모델 클래스의 성능을 크게 향상시킵니다. Flan-T5-XXL 모델은 1000개 이상의 추가 작업에서 미세 조정되어 더 많은 언어를 처리합니다.
여기에 이미지 설명 삽입

자원:

  • 연구 논문: "Scaling Instruction-Fine Tuned Language Models" [https://arxiv.org/pdf/2210.11416.pdf]
  • GitHub: google-research/t5x [https://github.com/google-research/t5x]
  • 데모: 채팅 Llm 스트리밍 [https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming]
  • 모델 카드: google/flan-t5-xxl [https://huggingface.co/google/flan-t5-xxl?text=Q%3A+%28+False+or+not+False+or+False+%29+is %3F+A%3A+Let%27s+think+step+by+step]

11.MPT-7B

MPT의 전체 이름은 MosaicML Pretrained Transformer로, MosaicML에서 출시한 대형 모델 시리즈입니다. 많은 대형 모델이 업계에 게시되었지만 이러한 모델은 일반적으로 교육 및 배포가 어렵습니다. MosaicML이 이러한 대형 모델을 출시하는 목적은 위의 한계를 해결하고 완전 오픈 소스이며 상업적으로 이용 가능한 대형 모델을 제공하는 것입니다. MPT 시리즈의 주요 기능은 다음과 같습니다.

  1. 상업용 라이센스로

  2. 대용량 데이터 기반 교육

  3. 긴 입력을 해결하는 것이 목표(최대 65K 입력, 84K 처리)

  4. 교육 및 추론 속도의 최적화

  5. 효율적인 오픈 소스 교육 코드

여기에 이미지 설명 삽입

자원:

  • 모델 GitHub 링크 https://github.com/mosaicml/llm-foundry

  • 모델 HuggingFace 링크 https://huggingface.co/mosaicml/mpt-7b

  • 종이 https://www.mosaicml.com/blog/mpt-7b

12. 칭화 채팅GLM-6B

ChatGLM-6B는 62억 개의 매개변수가 있는 일반 언어 모델(GLM) 아키텍처를 기반으로 하는 오픈 소스 중국어-영어 이중 언어 대화 언어 모델입니다. 모델 양자화 기술과 결합하여 사용자는 소비자 등급 그래픽 카드에 로컬로 배포할 수 있습니다(INT4 양자화 수준에서는 6GB의 비디오 메모리만 필요함). ChatGLM-6B는 중국 Q&A 및 대화에 최적화된 ChatGPT와 유사한 기술을 사용합니다. 감독 및 미세 조정, 피드백 자체 도움말, 인간 피드백 강화 학습 및 기타 기술로 보완된 중국어-영어 이중 언어 교육의 약 1T 식별자 후에 ChatGLM-6B는 62억 개의 매개변수를 사용하여 상당히 일치하는 답변을 생성할 수 있었습니다. 인간의 취향으로. 다운스트림 개발자가 자신의 애플리케이션 시나리오에 맞게 모델을 사용자 지정하고 P-Tuning v2를 기반으로 하는 효율적인 매개변수 미세 조정 방법(사용 가이드)을 실현하기 위해 최소 7GB 비디오 메모리가 필요합니다. INT4 양자화 레벨.

여기에 이미지 설명 삽입

자원:

  • GitHub 링크 https://github.com/THUDM/ChatGLM-6B

13. 푸단모스

보고서에 따르면 MOSS는 중국어-영어 이중 언어 및 다양한 플러그인을 지원하는 오픈 소스 대화 언어 모델입니다.moss-moon 시리즈 모델은 160억 개의 매개 변수를 가지며 FP16에서 단일 A100/A800 또는 두 개의 3090 그래픽 카드에서 실행할 수 있습니다 . 정밀도. /8 정밀도는 단일 3090 그래픽 카드에서 실행할 수 있습니다 . MOSS 받침대 언어 모델은 약 7000억 개의 중국어, 영어 및 코드 단어에 대해 사전 학습됩니다.대화 지침의 미세 조정, 플러그인 강화 학습 및 인간 선호도 교육을 거친 후 여러 라운드의 대화 및 여러 플러그인을 사용할 수 있습니다.

여기에 이미지 설명 삽입

자원:

  • GitHub 링크 https://github.com/OpenLMLab/MOSS

부록

교육 추론을 위한 최소 리소스 요약

모델 추리 훈련(미세 조정)
야마 17G 캔트
차이니즈-라마-알파카 3.9G
알파카 불특정 112G
알파카-LoRA 불특정 23g
비쿠나 14G 160G
오픈챗킷 40G 불특정
GPT4올 16G 불특정
레이븐 RWKV 15G 불특정
고르다 불특정 350GB
플랜-T5-XXL 불특정 불특정
MPT-7B 불특정 불특정
칭화 채팅GLM-6B 7g 96G
푸단 MOOS 7.8G 불특정

신체

1. 위키피디아 json 버전(wiki2019zh)

104만 항목(항목 1,043,224개, 원본 파일 크기 1.6G, 압축 파일 519M, 데이터 업데이트 시간: 2019.2.7)

구조:

{"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中,title是词条的标题,text是正文;通过"\n\n"换行。

예:

{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

여기에 이미지 설명 삽입

2. 뉴스 코퍼스 json 버전(news2016zh)

뉴스 250만건(원본 데이터 9G, 압축 파일 3.6G, 뉴스 내용 범위: 2014-2016)

Google 드라이브 다운로드 또는 Baidu 클라우드 디스크 다운로드 , 비밀번호: k265

데이터 설명

250만 개의 뉴스 기사가 포함되어 있습니다. 뉴스 소스는 제목, 키워드, 설명 및 텍스트를 포함하여 63,000개의 미디어를 다룹니다.

데이터 세트 파티셔닝: 데이터가 중복 제거되고 세 부분으로 나뉩니다. 트레이닝 세트: 243만 개, 검증 세트: 77,000개, 테스트 세트 수만 개, 다운로드 불가

가능한 용도:

可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;

也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);

亦可以通过新闻渠道区分出新闻的类型。

구조:

{'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}

其中,title是新闻标题,content是正文,keywords是关键词,desc是描述,source是新闻的来源,time是发布时间

예:

{"news_id": "610130831", "keywords": "导游,门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近

여기에 이미지 설명 삽입

3. 백과사전 Q&A JSON 버전 (baike2018qa)

150만 질문과 답변(원본 데이터 1G 이상, 압축 파일 663M 이상, 데이터 업데이트 시간: 2018년)

Google 드라이브 다운로드 또는 Baidu 클라우드 디스크 다운로드 , 비밀번호: fu45

데이터 설명

사전 필터링된 150만 개의 고품질 질문과 답변이 각 범주별로 하나씩 포함되어 있습니다. 총 492개의 범주가 있으며 그 중 434개의 범주는 빈도가 10 이상입니다.

데이터 세트 파티셔닝: 데이터가 중복 제거되고 세 부분으로 나뉩니다. 훈련 세트: 142만 5천개, 검증 세트: 45,000개, 테스트 세트 수만 개, 다운로드 불가

가능한 용도:

可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建

更好句子表示的模型、句子相似性任务等。

구조:

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。

예:

{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢,还是夏天进步好啊? ", "desc": "", "answer": "你好!\r\r当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。”\r\r不过,秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药,有病治病,无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里,人们由于喝冷饮,常食冻品,多有脾胃功能减弱的现象,这时候如果突然大量进补,会骤然加重脾胃及肝脏的负担,使长期处于疲弱的消化器官难于承受,导致消化器官功能紊乱。 \r\r二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。 \r\r四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后,由于脾胃尚未完全恢复到正常功能,因此过于油腻的食品不易消化吸收。另外,体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

공개 댓글:

유효성 검사 세트에 대한 모델의 정확도를 보고하는 것을 환영합니다. 작업 1: 클래스 예측.

보고서에는 #1) 검증 세트에 대한 정확도, #2) 사용된 모델, 방법 설명, 작업 방법, 1페이지 PDF, #3) 실행할 수 있는 소스 코드(선택 사항)가 포함됩니다.

2번과 3번을 기반으로 테스트 세트에서 테스트하고 테스트 세트에 대한 정확도를 보고합니다. 팀 1번과 2번만 제공되며 검증 세트의 결과는 계속 표시될 수 있지만 다음으로 표시됩니다. 미확인.

여기에 이미지 설명 삽입

4. 커뮤니티 질의 응답 json 버전(webtext2019zh): 대규모 고품질 데이터 세트

410만 개의 질문과 답변(필터링된 데이터 3.7G, 압축 파일 1.7G, 데이터 범위: 2015-2016)

구글 드라이브다운로드

데이터 설명

410만 개의 사전 필터링된 고품질 질문 및 응답이 포함되어 있습니다. 각 질문은 [주제]에 속하며 총 28,000개의 다양한 주제가 있으며 주제는 포괄적입니다.

1,400만 개의 독창적인 질문과 답변 중에서 좋아요가 3개 이상인 답변을 선택합니다. 즉, 답변 내용이 비교적 좋거나 흥미롭다는 의미이므로 고품질 데이터 세트를 얻을 수 있습니다.

주제에 해당하는 각 질문, 질문에 대한 설명 및 하나 이상의 답글 외에도 각 답글에는 좋아요 수, 답글 ID 및 답글 작성자의 태그가 있습니다.

데이터 세트 파티셔닝: 데이터가 중복 제거되고 세 부분으로 나뉩니다. 훈련 세트: 412만 개, 검증 세트: 68,000개, 테스트 세트 a: 68,000개, 테스트 세트 b는 다운로드할 수 없습니다.

가능한 용도:

1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据

2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。

3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、

  问题与答案的相关性,找到最好的答案。

4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。

5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。

구조:

{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,

"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}

其中,qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;topic是问题所属的话题,star是该回复的点赞个数,

content是回复的内容,answer_id是回复的ID,answerer_tags是回复者所携带的标签

예:

{"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?<br>如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

여기에 이미지 설명 삽입

이 데이터 세트에 대한 공개 평가 및 작업:

작업 1: 주제 예측.

보고서에는 #1) 검증 세트에 대한 정확도, #2) 사용된 모델, 방법 설명, 작업 방법, 1페이지 PDF, #3) 실행할 수 있는 소스 코드(선택 사항)가 포함됩니다.

2번과 3번을 기반으로 테스트 세트에서 테스트하고 테스트 세트에 대한 정확도를 보고합니다. 팀 1번과 2번만 제공되며 검증 세트의 결과는 계속 표시될 수 있지만 다음으로 표시됩니다. 미확인.

작업 2: 커뮤니티 질문 답변(cQA) 시스템 교육

요구 사항: 평가 지표는 MAP를 사용하고 문제 정렬에 적합한 테스트 세트를 구성하며 테스트 세트에 대한 영향을 보고합니다.

작업 3: 이 데이터 세트(webtext2019zh)를 사용하고, OpenAI의 GPT-2를 참조하고, 중국어 텍스트 쓰기 모델을 훈련하고, 다른 데이터 세트에 대한 제로샷의 효과를 테스트하거나, 언어 모델의 효과를 평가합니다.

5. 번역 말뭉치(translation2019zh)

520만 중국어 및 영어 병렬 말뭉치(원본 데이터 1.1G, 압축 파일 596M)

구글 드라이브다운로드

데이터 설명

520만 쌍의 중국어-영어 병렬 말뭉치. 각 쌍에는 영어와 해당 중국어가 포함됩니다. 중국어나 영어에서는 대부분 문장 부호가 있는 완전한 문장입니다.

병렬 중국어-영어 쌍의 경우 중국어에는 평균 36개의 단어가 있고 영어에는 평균 19개의 단어가 있습니다("she"와 같은 단어).

데이터 세트 파티셔닝: 데이터가 중복 제거되고 세 부분으로 나뉩니다. 트레이닝 세트: 516만개, 검증 세트: 39,000개, 테스트 세트 수만 개, 다운로드 불가

가능한 용도:

可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;

由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;

구조:

{"english": <english>, "chinese": <chinese>}

其中,english是英文句子,chinese是中文句子,中英文一一对应。

예:

{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}

, 수만, 다운로드할 수 없습니다.

가능한 용도:

可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;

由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;

구조:

{"english": <english>, "chinese": <chinese>}

其中,english是英文句子,chinese是中文句子,中英文一一对应。

예:

{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}

여기에 이미지 설명 삽입

추천

출처blog.csdn.net/qq128252/article/details/130646154