学习python爬虫笔记(2)

import requests
import json
from lxml import etree
import time

for i in range(5):
    page_start=str(i*20)
    url='https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start='+page_start
    headers = {''
               'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
               }
    response =requests.get(url,headers=headers,verify=False)
    content = response .content.decode()
    content_list =json.loads(content)['subjects']
    time.sleep(2)
    for div in content_list:
        rate=div["rate"]
        title=div["title"]
        url=div["url"]
        cover=div["cover"]
        print("{},\t{},\t{},\t{}\n".format(title,rate,cover,url))

来源

url来源

上图为参数URL获取方式

上图为headers获取方式,动态网页如果没有headers 好像是读取不到数据的。

可以看到数据存放在subjects,所以我们解析它就可以得到我们想要的数据。

猜你喜欢

转载自blog.csdn.net/a17674188183/article/details/82183914