爬虫1.3-数据存储

爬虫-数据存储

爬虫-数据存储

1. JSON文件

1.1 JSON数据格式

json是一种轻量级数据交换格式，采用完全独立于编程语言的文本格式来存储和表示数据，简洁清晰，适合前端和后端数据交换

JSON数据格式
1 对象（字典）使用花括号{}
2 数组（数组）使用方括号[]
3 整形、浮点型、布尔型、null型
4 字符串类型（字符串必须要用双引号，不能用单引号）
多个数据之间用逗号分开
json本质上就是一个字符串 python中只有基本数据类型才能转换成JSON格式，int float str list dict tuple

1.2 写入

写入方法一

persons = [{xxx}, {xxxxx}] 
json_str = json.dumps(persons) # 此时列表之间被转换成json标准格式(字符串类型)，然后一个文件写入就行了
fp.write(json_str)

写入方法二

with open('xx.json', 'w', enconding='utf-8') as fp:
  json.dump(persons, fp, ensure_asciii=False)   
# 涉及到中文字符时这里传入三个参数，第一个就是包含大量字典的列表，第二个是文件指针，第三个是将json函数默认转换ascii码关闭    另外文件写入时也要使用utf-8格式（enconding='utf-8'）

1.3 读取json

json_str = '[{"username": "laowang", "age": 18, "country": "china"}, {"username": "laoli", "age": 11, "country": "china"}]'
persons = json.loads(json_str)  这里persons通过loads函数变成了一个对象，然后下方对其进行操作即可
for i in persons:
    print(i)

with open('person.json', 'r', encoding='utf-8') as fp:
     persons = json.load(fp)     这时persons通过load函数变成了一个list类的对象，然后可以进行操作了
     for i in persons:
         print(i)

dump\dumps load\loads 有s 则与字符串有关没有s则与文件有关

2. CSV文件

2.1 csv数据格式

CSV文件不是一个特定的文件格式，泛指具有以下特征的任何文件：
1 纯文本，使用某个字符集，如utf-8, unicode, ascii, gbk等
2 由记录组成，典型的是每行一条记录
3 每条记录被分隔符分割为字段典型的分隔符有逗号分号制表符
4 每条记录都有同样的文本字段如姓名年龄身高体重每条记录都要有这四个字段

2.2 写入

CSV文件写入方法一：
headers = ['username', 'age', 'height']       
data = [('张三', 18, 160),('lisi', 20, 213)]
with open('classroom.csv', 'w', encoding='utf-8', newline='') as fp:   
    #这里的newlien参数是为了避免写入后又多余的换行
    writer = csv.writer(fp)
    writer.writerow(headers)

CSV文件写入方法二： 字典直接写入
with open('classroom.csv', 'w', encoding='utf-8', newline='') as fp:
    writer = csv.DictWriter(fp, headers)    # 这里直接使用DictWriter函数
    writer.writerow(data)    # writerow每次只写入一条

with open('classroom.csv', 'w', encoding='utf-8', newline='') as fp:
    writer = csv.DictWriter(fp, headers)  # 这里直接使用DictWriter函数
    writer.writeheader()   # 这里必须先调用写入头部函数，否则没有头部
    writer.writerows(data)  # 多条数据，直接使用writerows全部写入即可

3. mysql数据库数据存入

import pymysql
db = pymysql.connect(
    host='47.107.110.xx',
    user='xxx',
    password='xxx',
    database='testdb',  # 数据库名
    port=3306
)

这里要理解，一个数据库服务器可以有多个数据库，所以要选择某个数据库进行操作

新建表格的第一个字段可以设置为自动增长，可以理解为id
sql = """
insert into user(id,username,age,password) values(null,%s,%s,%s)
"""  
# 这里使用%s是因为数据库在处理时都先按照字符串的
# null是id  它自动增长可以不用填写
username = 'laowang'
age = 88
password = '123456'   # 这样就可以自己灵活施展了
cursor = db.cursor()   # cursor是创建一个新的游标，方便执行语句
cursor.execute(sql, (username, age, password))  # 这里要传入一个元组
db.commit()  # 必须使用commit提交后， 数据库的数据才会改变
db.close()

查询数据：
fetchone() # 返回一条数据
fetchall() # 接收全部的返回结果
fetchmany(size) # 获取定条数的数据
使用查询语句后，要使用上述三条语句才能获得结果，
result = cursor.fetchone() # 获得一条数据（元组形式）  
result = cursor.fetchall() # 获得所有返回的数据（(xxx,xxxx,xxx), (yyy,yyyy,yyy)） 
fetmany(size) # 得到的数据形式与fetchall类似

删除数据：
使用sql = """delete from table where id=1;"""  
然后cursor.execute(sql)   
db.commit()
# 这里删除时只能删除一整条记录，插入，删除，更新等数据修改操作都需要使用.commit()函数

更新数据
sql = """update table set username='xxx' where id=1;""" 这里sql语句需要指明表 字段 标识
如果不加id=1   就会把整个表的所有记录中的usernam字段都更新为xxx