python 爬取页面链接 - 代码天地

python 爬取页面链接

企业开发 2018-06-02 18:36:51 阅读次数: 0

思路：

1 确定入口链接

2 构造链接提取正则表达式

3 模拟成浏览器

4 过滤重复链接

示例：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import re
import urllib.request

def getlink(url):
	headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36")
	opener=urllib.request.build_opener()
	opener.addheaders=[headers]
	urllib.request.install_opener(opener)
	file=urllib.request.urlopen(url).read()
	data=str(file)
	pat='(https?://[^\s)";]+\.(\w|/)*)'
	link=re.compile(pat).findall(data)
	link=list(set(link))
	return link
url="http://blog.csdn.net/"
linklist=getlink(url)
for link in linklist:
	print(link[0])

程序结果：

提取成功

猜你喜欢

转载自blog.51cto.com/superleedo/2123491

python 爬取页面链接

python爬取页面上的链接

利用python爬取页面

python爬取京东页面

Selenium+python --使用正则表达式爬取页面的URL链接

python爬取页面并保存页面

利用python爬取分享网站链接

python爬虫--打开爬取页面

Python 爬虫 ——爬取Web页面图片

Python爬取无限滚动页面

Python爬取加载js的页面

【Python requests多页面爬取案例】

Python爬虫笔记：爬取单个页面

python简单爬虫，爬取整个页面

python爬取淘宝商品页面信息

python爬取京东商品页面信息

Python基础代码爬取超链接文字及链接

python梳理爬虫思路：静态页面爬取 +动态页面爬取 + 需要登陆的页面爬取（实战应用）

python爬虫——爬取电影天堂磁力链接

python3.3.3 爬取图片链接

python爬取博客圆首页文章链接+标题

python爬取豆瓣电影首页超链接

python3爬取torrent种子链接实例

Python笔记6——爬取电影天堂链接

python爬取个人csdn博客链接和标题

python爬取百度搜索内容链接

practice之Python爬取Python官网页面

Python3-网页爬取-批量爬取贴吧页面数据

Python爬虫爬取ajax动态加载页面——证监会法规爬取

【Python爬虫】之爬取页面内容、图片以及用selenium爬取

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)