python 爬虫定向爬取技术 - 代码天地

python 爬虫定向爬取技术

编程语言 2018-10-20 22:26:40 阅读次数: 0

本代码用来爬取“糗事百科”中的 用户名 及其段子
谨作为爬虫入门的一个例子
欢迎各位同学批评及评论

# -*- coding: utf-8 -*-
import re
import urllib.request

def getcontent(url):
    #更改自己的User-Agent，让所爬取网页以为自己是浏览器访问
    headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60")

    #创建opener  属于隐藏真实访问的范畴   伪装自己的地址
    opener = urllib.request.build_opener()

    #通过更改User-Agent将自己伪装成浏览器
    opener.addheaders = [headers]

    #将opener安装为全局  安装opener
    urllib.request.install_opener(opener)

    #请求URL   打开网页获取网页信息
    data=urllib.request.urlopen(url).read().decode('UTF-8')

    #正则表达式  匹配用户名  因为观察网页的html得到用户名都在<h2>里面
    userpat = '<h2>(.*?)</h2>'

    #正则表达式  匹配段子内容，因为网页的html得到段子内容都在class类 content里面
    contentpat = '<div class="content">(.*?)</div>'

    #re.S  表示“.”（不包含外侧双引号，下同）的作用扩展到整个字符串
    userlist = re.compile(userpat,re.S).findall(data)
    contentlist = re.compile(contentpat, re.S).findall(data)

    #for循环打印  用户名 和  段子内容
    for x in range(0,len(contentlist)):
        #replace() 方法把字符串中的 old（旧字符串） 替换成 new(新字符串) 如果指定第三个参数max，则替换不超过 max 次。 语法：str.replace(old, new，[max])
        a = userlist[x].replace('\n','')
        b = contentlist[x].replace('\n', '')
        dic = dict(user=a,content=b)
        print(dic)
#url = 'https://www.qiushibaike.com/8hr/page/1/'

#实现翻页操作
for i in range(1,14):
    url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
    getcontent(url)

猜你喜欢

转载自blog.csdn.net/zjy122377/article/details/83153819

python 爬虫定向爬取技术

什么是定向爬取技术，Python爬虫的定向爬取技术需解决哪些问题？

Python 定向爬虫爬取汽车之家

定向爬虫，爬取中国大学排名 Python

Python爬虫-IP隐藏技术与代理爬取

Python 爬虫爬取网页

python爬虫－爬取图片

python 爬虫爬取csdn

python爬虫爬取图片

Python爬虫：爬取图片

python爬虫（爬取视频）

python爬虫（爬取段子）

python爬虫 - 爬取图片

python爬虫爬取视频

Python爬虫——爬取小说

python爬虫登录爬取

【python爬虫】—图片爬取

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

python爬虫学习淘宝页面定向爬取 DAY5

Python爬虫——定向爬取“中国大学排名网”

Python爬取淘宝商品失败---解决：淘宝的反爬虫机制 - http重定向问题

Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)

Python网络爬虫之制作股票数据定向爬虫以及爬取的优化可以显示进度条！

Python爬虫实例之淘宝商品比价定向爬取！爬虫还是很有意思的！

爬虫之股票定向爬取

使用Python爬虫爬取简单网页（Python爬虫入门）

python爬虫--打开爬取页面

Python爬虫——爬取网站的图片

python爬虫爬取网站数据

Python编程（一）--爬虫爬取图片

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)