python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理) - 代码天地

python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理)

其他 2018-05-30 13:17:20 阅读次数: 0

爬取网址：http://www.meijutt.com/alltop_hit.html
爬取内容：排行榜名称
爬取目标：存储到本地文件中

涉及，浏览器伪装，代理服务器，异常处理

代码如下：

from bs4 import BeautifulSoup    #调用库
from urllib import request,error
try:
    url = 'http://www.meijutt.com/alltop_hit.html'
    headers = ("User-Agent",
               "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393")

    proxy_ip = '119.28.194.66'  #代理服务器ip
    proxy_ip_address = request.ProxyHandler({"http:": proxy_ip})
    openner = request.build_opener(proxy_ip_address, request.HTTPHandler)  #使用代理ip
    openner.addheaders = [headers]   #浏览器伪装
    request.install_opener(openner)
    data = openner.open(url).read().decode("gb2312")  #获取网页源码并解码

    file = open(r"E:\crawl\meiju.txt", "a")
    i = 1
    soup = BeautifulSoup(data,"html.parser")
    nodes = soup.find_all("a",target="_blank")
    for node in nodes:
        file.write(str(i)+".")
        file.write(node.text.replace("\n","")+"\n")     #将文件写入指定的文件中
        i+=1
except error.URLError as e:
    print("再检查下程序吧！")

猜你喜欢

转载自blog.csdn.net/key_book/article/details/80314668

python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理)

python爬虫爬取酷狗音乐排行榜

Python爬虫实战：爬取全站小说排行榜

python 爬虫爬取网易新闻网易排行榜

爬取芒果TV电视剧排行榜

python实战之原生爬虫(爬取熊猫主播排行榜)

Python爬虫实战（四）：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

Python爬虫+requests+伪装浏览器爬取小说入门总结

Python网络爬虫---爬虫的异常处理实战、浏览器伪装技术实战

python数据分析之爬虫七：爬取豆瓣书籍排行榜Top250

Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析

Python爬虫爬取美剧网站

Python数据挖掘学习笔记（8）爬虫异常处理与浏览器伪装

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

Python3爬虫入门实战系列（二）爬取猫眼电影排行榜

Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析

python3爬虫-爬取B站排行榜信息

Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

Python爬虫数据存储（TXT文本存储）爬取豆瓣音乐排行榜

python爬虫爬取小说排行榜目录并导入Excel中，方便筛选

浏览器伪装技术爬取csdn伪装技术

Python网络爬虫：自动模拟HTTP请求&爬虫的异常处理&爬虫浏览器伪装技术&新闻爬虫实战

爬取哔哩哔哩番剧排行榜

python — 定时爬取猫眼电影排行榜

python爬取酷狗音乐排行榜

python爬取b站排行榜

Python爬取虾米音乐排行榜

Python爬取酷我音乐排行榜歌曲~

Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

2 月份浏览器市场排行榜出炉

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)