Python网络爬虫——把一个网页中所有的链接地址提取出来（去重） - 代码天地

Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）

其他 2018-05-30 05:07:30 阅读次数: 0

# 把一个网页中所有的链接地址提取出来。

运行环境Python3.6.4-实现代码：

import urllib.request
import re
#1. 确定好要爬取的入口链接
url = "http://blog.csdn.net"
# 2.根据需求构建好链接提取的正则表达式
pattern1 = '<.*?(href=".*?").*?'
#3.模拟成浏览器并爬取对应的网页 谷歌浏览器

headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')
# 4.根据2中规则提取出该网页中包含的链接
content_href = re.findall(pattern1,data,re.I)
# print(content_href)

# 5.过滤掉重复的链接
#    # 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}
set1 = set(content_href)

# 6.后续操作，比如打印出来或者保存到文件中。
file_new = "D:\\爬虫\\href.txt"
with open(file_new,'w') as f:
    for i in set1:
        f.write(i)
        f.write("\n")
# f.close()
    
print('已经生成文件')

猜你喜欢

转载自blog.csdn.net/it_zxl001/article/details/80027845

Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）

Python提取Word文档中所有超链接地址和文本

使用Map集合中的方法KeySet(),把集合所有的key取出来，存储到一个set集合中

怎样把一个文件夹里面所有文件的文件名提取出来，放到Excel表格里呢

将一个字符串中的数字提取出来

js 怎么把一个小功能提取出来

解析出一个网页中所有的图片

【用python将文件夹下面的文件夹里面的文件全部提取出来，并且放到一个新的文件夹】

.net mvc（一）将数据库提取出来显示在网页

Python + OpenCV 把书法里的单字提取出来

获取所有一个类中所有的Field（包括父类）

小程序右上角菜单的「复制链接」提取出来的Short Link 有效期是多久？

一个表情 *.*，教你把同一目录的多个文件夹的子文件，一次性全部提取出来

给定一个文本文件，每行是一条股票信息，写程序提取出所有的股票代码

输入一个不定长度的数字字符串，将其中的数字提取出来并保存在数组中。

怎么把一个字符串中的数字提取出来然后进行运算呢

python学习之网站的编写（HTML，CSS，JS）（十一）----------如何利用其它html文件中的CSS（也就是可以将共同的地方提取出来，放大一个文件中，利于使用）

在oracle里面为读取出来的数据添加一个序号

android 打开一个任意文件,从环信中抽取出来的

找出输入文字中所有的数字串（一个只有数字的串，不是输出文字中所有的数字）

SpringMvc实战--在一个页面显示Controller中所有的方法信息

获取一个键值对集合中所有的键

PHP如何知道一个类中所有的方法

一个Demo学完Android中所有的服务

LeetCode：78. Subsets（找出一个数组中所有的子集）

将一个数组中所有的奇数放左边，偶数放右边

[c#.net]遍历一个对象中所有的属性和值

IDEA查看一个类中所有的方法

得到一个数组,然后输出数组中所有的素数

打印一个集合中所有的子集数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)