链接爬虫实战（CSDN博客） - 代码天地

链接爬虫实战（CSDN博客）

其他 2018-07-30 10:19:47 阅读次数: 0

#coding=utf-8
"""
author:susu
date:2018/6/25
function:get the links of blog
"""
import re
import urllib.request
def getlink(url):
  #模拟成浏览器
  headers = ("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Mobile Safari/537.36 SE 2.X MetaSr 1.0")
  opener = urllib.request.build_opener()
  opener.addheaders = [headers]
  #将opener 安装为全局
  urllib.request.install_opener(opener)
  file = urllib.request.urlopen(url)
  data = str(file.read())
  #根据需求构建匹配表达式
  pattern = '（http://+[a-zA-Z]）'
  link =re.compile(pattern).findall(data)
  #去除重复元素
  link = list(set(link))
  return link,data
if __name__ =='__main__':
    url ='http://blog.csdn.net/'
    #获取对应网页的地址链接
    linklist ,date= getlink(url)
    print (date)
    print (linklist)
    for link in linklist:
        print(link)

猜你喜欢

转载自blog.csdn.net/weixin_40411446/article/details/80799271

链接爬虫实战（CSDN博客）

Python爬虫入门实战3：获取CSDN个人博客信息

Python爬虫实战，基于Python爬虫的模拟访问csdn博主博客，增加CSDN访客量

某大牛的csdn博客链接

CSDN博客链接地址

爬虫实战：链接爬虫实战

Python爬虫实战--CSDN博客爬虫（附赠浏览量小工具）

NodeJS简单爬虫获取指定用户CSDN博客所有文章链接

链接爬虫实战

Python爬虫入门实战1：获取CSDN个人博客文章目录及阅读量数据

Python爬虫入门实战2：获取CSDN个人博客文章基础信息

PHP 获取CSDN博客的文章链接

JAVA爬虫挖取CSDN博客文章(续)

从头学习爬虫（二十九）实战篇----WebMagic爬CSDN博客 WebMagic入门实战下CSDN，20行代码实现爬取标题

『Python开发实战菜鸟教程』实战篇：爬虫快速入门——统计分析CSDN与博客园博客阅读数据

Python爬虫自学系列（八）-- 项目实战篇（二）爬取我的所有CSDN博客

Python爬虫入门<八>—链接爬虫实战

Java实战项目目录（CSDN博客版）

python简单实现获取CSDN博客文章链接

python爬取个人csdn博客链接和标题

基于WebMagic写的一个csdn博客小爬虫

用python爬虫监控CSDN博客阅读量

Python+爬虫+xlwings发现CSDN个人博客热门文章

Java版假爬虫：CSDN博客数据抓取

CSDN链接

大屏监控系统实战（5）-爬虫初探：爬取CSDN博客之星年度总评选投票统计数据

009：博客类爬虫项目实战

CSDN博客

CSDN的博客……

【csdn】csdn博客搬家

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)