Python爬虫入门<八>—链接爬虫实战

其他 2018-08-08 05:17:18 阅读次数: 0

Python爬虫入门<八>—链接爬虫实战

标签：链接爬虫实

进过前面的学习，我们直接来看看最简单的爬虫，链接爬虫，也就是说，我们这个爬虫就是去爬取一个网页的所有链接
代码：

import re
import urllib.request
def getlink(url):
    req = urllib.request.Request(url)
    # 模拟浏览器
    req.add_header=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")
    file=urllib.request.urlopen(req)
    data=str(file.read())
    # 正则表达式
    pat='(https?://[^\s)";]+\.(\w|/)*)'
    link=re.compile(pat).findall(data)
    #去重
    link=list(set(link))
    return link
url="http://www.baidu.com/"
linklist=getlink(url)
for link in linklist:
    print(link[0])

结果：

...
http://api.open.baidu.com
http://www.baidu.com
http://map.baidu.com
http://b1.bdstatic.com
http://t3.baidu.com
http://t1.baidu.com
https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com
...

所以，这就是最简答的爬虫
我们来拉一下思路：
1.创建getlink()函数
2.模拟浏览器访问
3.创建正则表达式
4.去重
6.访问url

猜你喜欢

转载自blog.csdn.net/Travelerwz/article/details/79824724

Python爬虫入门<八>—链接爬虫实战

Python 爬虫入门实战

Python爬虫实战入门

Python爬虫入门实战八：数据储存——MongoDB与MySQL

爬虫实战：链接爬虫实战

【Python爬虫】简单的爬虫入门实战

小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战

Python从入门爬虫到实战

Python爬虫入门实战前言

Python 爬虫实战入门（下）

Python网络爬虫实战入门

Python 爬虫入门实战01

【Python爬虫】爬虫实战

链接爬虫实战

Python 爬虫从入门到进阶之路（八）

Python爬虫实战入门四：使用Cookie模拟登录—获取电子书下载链接

Python爬虫入门到实战-史上最详细的爬虫教程

19.2 Python入门之编写爬虫实战

Python爬虫实战入门一：工具准备

Python爬虫入门学习实战项目（一）

Python爬虫入门学习实战项目（二）

Python3实战——爬虫入门

Python网络爬虫实战(一)快速入门

Python爬虫实战入门——工具准备篇

python网络爬虫从入门到实战开发

Python爬虫入门实战——彼岸图网

Python爬虫实战--WeHeartIt爬虫

Python爬虫实战--TripAdvisor爬虫

不踩坑的Python爬虫：Python爬虫开发与项目实战，从爬虫入门 Python

链接爬虫实战（CSDN博客）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)