Huggingface处理数据排除异常值

在使用map方法读取数据的时候遇到异常值导致报错

input = dataset['train'].map(lambda x: llama_tokenizer(x["instruction"], truncation=True),batch_size=1000)

第一步检查报错数据

n = -1
for i in dataset['train']:
    n+=1
    try:
        llama_tokenizer(i["instruction"])
    except:
        print(n)

第二步打印异常数据

dataset['train'][19475]

第三步通过filter过滤掉

dataset = dataset.filter(lambda x: x["instruction"] !=None)

猜你喜欢

转载自blog.csdn.net/qq_18555105/article/details/130291508