Python3.X下的爬虫实现 - 代码天地

Python3.X下的爬虫实现

编程语言 2018-11-26 08:03:22 阅读次数: 0

# coding:utf-8
import urllib.request
import re


def get_html(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html


def find_img_list(html_str):
    reg = r'src="(.+?\.jpg)" width'
    reg_img = re.compile(reg)
    html_str = html_str.decode('utf-8')  # python3
    img_list = reg_img.findall(html_str)
    return img_list


imgList = find_img_list(get_html('http://tieba.baidu.com/p/1753935195'))
for img in imgList:
    print(img)

由于Python部分的不同版本代码有些不同，故修改一份python3.X的备忘

猜你喜欢

转载自pigga.iteye.com/blog/2434312

Python3.X下的爬虫实现

python3.x之爬虫学习

linux下安装python3.x

Python3.x实现线性单元

python3.x爬虫 urllib和requests实现模拟登陆的具体步骤详解

Python3.X 爬虫实战缓存与持久化

Python3.X网络爬虫学习（六）

Python3.X网络爬虫学习（一）

Python3.X网络爬虫学习（三）

Python3.X网络爬虫学习（五）

Python3.X网络爬虫学习（四）

Python3.X网络爬虫学习（二）

Python3.X 爬虫实战（缓存与持久化）

Python3.X 爬虫实战（并发爬取）

【转载】【python3.x爬虫】设置IP代理

Python3.x爬虫下载网页图片的实例讲解

python3.x（3）

ubuntu 12.0.4 下python3.x web环境搭建

Mac下安装Python3.x版本

Python3.x　Linux下源码安装

Linux(Ubuntu)下Python3.x安装

Ubuntu系统下python3.x的卸载

Python3.x urllib

Python3.x实现神经网络

Python3.x实现感知器

Python3.x：定时任务实现方式

python3.x 实现 print 不换行

Python3.x下Selenium3.x之安装篇 Python3.x下Selenium3.x之安装篇（一）

Python3.X网络爬虫学习（七）-图片类爬虫项目实战

python3.x下运行python2.x的代码

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)