python爬虫项目(scrapy-redis分布式爬取房天下租房信息)

爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0&page=1)

爬取内容:雪球网深沪股市情况

使用工具:requests库实现发送请求、获取响应。  

     json格式的动态加载数据实现数据解析、提取。  

     pymysql进行数据存储

思路:对该网站的动态加载数据的请求方式进行控制变量的发送请求,最终得到实际有效的参数。

项目重点:使用抓包工具分析发送数据请求到json格式的cookie数据,这是此次动态抓取的重点

直接放代码(详细说明在注释里,欢迎同行相互交流、学习~):

import requests
import json
import pymysql
'''
遇到python不懂的问题,可以加Python学习交流群:1004391443一起学习交流,群文件还有零基础入门的学习资料
'''
class mysql_conn(object):
    # 魔术方法, 初始化, 构造函数
    def __init__(self):
        self.db = pymysql.connect(host='127.0.0.1', user='root', password='abc123', port=3306, database='py1011')
        self.cursor = self.db.cursor()
    # 执行modify(修改)相关的操作
    def execute_modify_mysql(self, sql):
        self.cursor.execute(sql)
        self.db.commit()
    # 魔术方法, 析构化 ,析构函数
    def __del__(self):
        self.cursor.close()
        self.db.close()

headers = {
# 使用抓包工具分析发送数据请求到json格式的cookie数据,这是此次动态抓取的重点
    'Cookie':  xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; 
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'

response = requests.get(url,headers=headers)

res_dict = json.loads(response.text)

list_lsit = res_dict['list']

db ={}
for list_item_dict in list_lsit:
    data_dict = json.loads(list_item_dict['data'])

    db['id'] = data_dict['id']
    db['title'] = data_dict['title']
    db['description'] = data_dict['description']
    db['target'] = data_dict['target']
    try:
        sql = 'insert into xueqiu (uid,title,description,target) values ("{id}","{title}","{description}","{traget}")'.fromart(**db)
        mc = mysql_conn()
        mc.execute_modify_mysql(sql)
    except:
        pass

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/91354081