Python3 Ajax加载的网页爬取 - 代码天地

Python3 Ajax加载的网页爬取

其他 2018-10-08 12:18:02 阅读次数: 0

url：今日头条，搜索“街拍”并打开

https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D

浏览器：firefox

分析：打开页面，空白处单击鼠标右键，选择 ”查看元素”

在下面弹出元素框内选择网络，并在右边的框内选择 XHR

网页往下拉。。。。。

直到元素框有数据出现。

#coding=utf-8
import re
import time
import requests
from urllib.parse import urlencode
from requests.exceptions import RequestException

def getHtml(url,offset):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'}     #伪装一下
        data = {"autoload":"true",
                "count":'20',
                "cur_tab":'1',
                "format":"json",
                "from":"search_tab",
                "keyword":"街拍",
                "offset":offset, 
            }
        url = url + urlencode(data)
        response = requests.get(url,headers = headers).json()
        return response
    except RequestException:
        return None

if __name__=='__main__':
    urls = []
    url = "https://www.toutiao.com/search_content/?"
    host_url = "https://www.toutiao.com/a"
    for offset in range(0,20,20):
        html = getHtml(url,offset)
        if html is None:
            continue
        data = html.get('data')
        for item in data:
            group = item.get('group_id')
            if group is None:
                continue
            group = host_url + group
            urls.append(group)

        time.sleep(1)
    for url in urls:
        print (url)

猜你喜欢

转载自blog.csdn.net/qq523176585/article/details/82924067

Python3 爬取Ajax加载的网页信息

Python3 Ajax加载的网页爬取

python3爬取网页图片

python3 爬取天气网页

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

python3 网络爬虫如何对非页数选择，下拉加载类的网页进行爬取

python3爬虫爬取网页图片简单示例

python3爬虫之二：爬取网页图片

python3 爬取36氪新闻网页

Python3 -- 基于Splinter工具爬取网页资源

python3 从网页上爬取图片

python3 url 爬取网页并读写

python3定向爬取网页内容

python3 爬取网页表格例子

python3 爬取网页的异常处理

python3爬取网页图片路径并写入文件

python3爬取网页中的邮箱地址

Python3 使用request模块爬取网页的图片

Python3 使用urllib 爬取网页

python爬虫日志(3)-爬取异步加载网页

python爬虫之爬取案例网页ajax请求的数据

Python3——爬取淘宝评论

python3爬取图片

python3爬取租房的信息

python3 爬取影像数据

python3 爬取API数据

使用Python3爬取美女

使用python3爬取小说

Python3爬取音乐

Python爬虫爬取ajax动态加载页面——证监会法规爬取

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)