小爬虫 - 代码天地

小爬虫

其他 2019-03-08 13:51:24 阅读次数: 0

爬虫一般在网页Post里找数据,注意大部分网页都已经反爬,会出现主要对象加密的问题,比如百度翻译就影藏了输入的内容,有道翻译进行了MD5加密,不过广大网友是给力,只要把网址里的_o去掉就又可以了

参考小甲鱼的实例,我试着爬了下百度贴吧的图片,还挺方便.

import urllib.request
import re

def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
page= urllib.request.urlopen(req)
html =page.read().decode('utf-8')

return html

def get_img(html):
p=r'<img class="BDE_Image" src="([^"]+\.jpg)"' #findall会自动找出( )内的内容
imglist=re.findall(p,html)

#for each in imglist:
#print(each)
for each in imglist:
filename=each.split('/')[-1] #把要存储的文件名分割出来
urllib.request.urlretrieve(each,filename,None)

if __name__=='__main__':
url = 'https://tieba.baidu.com/p/6055466318'
get_img(open_url(url))

猜你喜欢

转载自www.cnblogs.com/009NotFound/p/10495258.html

小爬虫

scrapy的小爬虫

水木清华小爬虫

整理python小爬虫

使用爬虫的小技巧

PHP小爬虫

爬虫小示例

爬虫经验小总结

爬虫小程序

python爬虫小实例

爬虫小实例

Go小爬虫测试

简单小爬虫（二）

简单小爬虫（一）

网页爬虫小笔记

简单小爬虫

nodejs制作小爬虫

python小爬虫图片

爬虫——小练习

python的爬虫小入门

爬虫小例子

爬虫小技巧

电影天堂小爬虫

LouGou小爬虫

爬虫的Requests(小技巧)

python爬虫的小应用

爬虫小练习2

爬虫小练习3

爬虫工作的小总结

Python爬虫-小实例

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)