从json提取数据,保存成txt格式

前段时间有一个需求做文本语义匹配,但是公司的标注数据不够无监督学习效果不够好,只能使用开源的数据集。开源的数据集清洗成json格式,我们从json提取数据保存成txt格式方便后续的使用。JSON数据格式如下:
在这里插入图片描述
处理好的txt数据格式如下:
在这里插入图片描述
处理代码如下图所示:

import json
import os
import sys
sen1 = []
sen2 = []
label = []
with open('./1.json',encoding='utf-8') as f:
 for line in f:
  try:
   line.index("sen1")
   # line = line.strip('\n')
   pos = line.index(':')
   sen1.append(line[pos+3:len(line)-3])
  except ValueError:
   pass
  try:
   line.index("sen2")
   # line = line.strip('\n')
   pos = line.index(':')
   sen2.append((line[pos+3:len(line)-3]))
  except ValueError:
   pass
  try:
   line.index("label")
   try:
    line.index("sen1")
   except ValueError:
    pos = line.index(':')
    # label.append(line[pos + 3:len(line) - 2])
    # label.append(line[pos + 1:len(line) - 1])
    label.append(line[pos + 3:len(line) - 2])
  except ValueError:
   pass
 write_file = open('./1.txt',"a+",encoding='utf-8')
 j=0
 while j< len(sen1):
  str_info = sen1[j]+"\t"+sen2[j]+"\t"+label[j]+"\n"
  write_file.write(str_info)
  j = j + 1

猜你喜欢

转载自blog.csdn.net/weixin_43228814/article/details/125923787