python爬虫学习（二）搜索页信息采集 - 代码天地

python爬虫学习（二）搜索页信息采集

其他 2020-03-26 15:05:17 阅读次数: 0

反爬机制

UA:User-Agent(请求载体的身份标识)

UA检测

服务器会检测对应请求的载体身份标识
如果检测到请求载体的身份标识是某一个浏览器，说明该请求是一个正常请求
如果检测到请求的载体身份标识不是浏览器则标识，该请求为不正常的请求，服务器会拒绝此次请求

UA伪装：让爬虫伪装成浏览器

# -*- coding: utf-8 -*-
import requests
if __name__ == '__main__':
    #UA伪装：将对应的User-Agent封装到字典中
    headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
    }
    url="https://www.sogou.com/web"
    #处理url携带的参数：封装到字典中
    kw = input('enter a word:')
    param={

        "query":kw
    }
    #url:url   params :封装成字典的参数
    #对指定url发起请求，对应的url是携带参数的，并且请求过程中处理了参数
    response=requests.get(url=url,params=param,headers=headers)
    #接受返回数据
    page_text=response.text

    #存储
    fileName = kw+'.html'
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,"保存成功")

发布了23 篇原创文章 · 获赞 0 · 访问量 679

私信关注

猜你喜欢

转载自blog.csdn.net/haimian_baba/article/details/103698073

python爬虫学习（二）搜索页信息采集

python学习--采集弹幕信息

python学习之爬虫网络数据采集

Python爬虫百度地图搜索数据采集

【Python爬虫】采集电商商品评价信息

Python学习之爬虫03-自动模拟HTTP请求与百度信息自动搜索

Python爬虫学习（二）

Python爬虫学习二

python爬虫学习(二)

爬虫采集端口信息

python爬虫采集

python爬虫与数据采集

scrapy基本爬虫，采集多页

每日爬虫练习：瓜子二手车爬虫信息的采集

python网络爬虫入门（四、采集单一网页特定数据）

python采集链家二手房信息

Python爬虫百度360信息搜索并爬取

初识python爬虫 Python网络数据采集1.0 BeautifulSoup通过网站css爬取信息

Python爬虫学习日记二

Python网络爬虫学习（二）

Python爬虫开发学习（二）

Python爬虫学习笔记（二）

python爬虫（二）：人人贷爬虫（散标用户信息）

Python爬虫学习笔记(信息的标记与提取)

python 学习 - 爬虫入门练习爬取链家网二手房信息

Python数据采集-开始爬虫

Python数据采集-创建爬虫

python采集股票信息进行分析，爬虫的价值没你想象的简单！

利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器

Python爬虫实战讲解：某东商品评论信息采集流程分析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)