背景:330M jsonファイル、約100w以上のデータがあり、内部にフォーマットの問題があり、手動で置き換えて変更する必要があります
方法:6つの小さなjsonファイルに分割します。コードは次のとおりです。
# 读取大json文件
with open('binguan_all.json', 'r', encoding='utf-8') as f1:
N = [json.loads(line.strip()) for line in f1.readlines()]
# 将数据按照每20w条一份,分别存储
total = len(N)//200000
# 为了读取完全,total需要+1,将小json文件存到路径:F:\Github\
for i in range(total+1):
json.dump(N[i*200000:(i+1)*200000], open("F:\\Github\\" + str(i) + ".json", 'w', encoding='utf8'), ensure_ascii=False, indent=True)