大きなjsonファイルの分割

背景:330M jsonファイル、約100w以上のデータがあり、内部にフォーマットの問題があり、手動で置き換えて変更する必要があります

方法:6つの小さなjsonファイルに分割します。コードは次のとおりです。

# 读取大json文件
with open('binguan_all.json', 'r', encoding='utf-8') as f1:
    N = [json.loads(line.strip()) for line in f1.readlines()]
	
	# 将数据按照每20w条一份,分别存储
    total = len(N)//200000

	# 为了读取完全,total需要+1,将小json文件存到路径:F:\Github\
    for i in range(total+1):
        json.dump(N[i*200000:(i+1)*200000], open("F:\\Github\\" + str(i) + ".json", 'w', encoding='utf8'), ensure_ascii=False, indent=True)

問題が解決したら、ブックマーク+いいね+フォローへようこそ〜

おすすめ

転載: blog.csdn.net/weixin_45281949/article/details/108516875