Huggingface处理数据排除异常值
在使用map方法读取数据的时候遇到异常值导致报错
input = dataset['train'].map(lambda x: llama_tokenizer(x["instruction"], truncation=True),batch_size=1000)
第一步检查报错数据
n = -1
for i in dataset['train']:
n+=1
try:
llama_tokenizer(i["instruction"])
except:
print(n)
第二步打印异常数据
dataset['train'][19475]
第三步通过filter过滤掉
dataset = dataset.filter(lambda x: x["instruction"] !=None)