Use una oración para entrenar el tokenizador chino y fusionarlo con el tokenizador LLaMA

Cero, descarga de datos, procesamiento

#!/usr/bin/env python
# -*- coding:utf-8 _*-
"""
@description: 搜集多个数据集 合并数据集 todo
"""
import glob

from tqdm import tqdm
import json
import json
import os

from tqdm import tqdm
from zhconv import convert



# =====================================================
# 中文wiki数据集
# =====================================================

# 中文wiki下载地址: https://dumps.wikimedia.org/zhwiki/
# 利用wikiextractor处理文本格式
# pip install wikiextractor
# -b 10M 其中10M是指单个文件允许的最大的占用硬盘的大小
# ./zhwiki 指输出数据存放文件夹
# 

Supongo que te gusta

Origin blog.csdn.net/u013250861/article/details/131898300
Recomendado
Clasificación