python学习笔记之网络爬虫(七)爬取官网信息标题 - 代码天地

python学习笔记之网络爬虫(七)爬取官网信息标题

其他 2019-03-07 18:21:50 阅读次数: 0

T Xiao Ang Zai 11月9号

版本：python3.7

编程软件：sublime

今天我们爬取湖北一所某高校的一个活动的标题。

官网链接：http://www.jwc.hbnu.edu.cn/default.html

爬取链接：http://www.jwc.hbnu.edu.cn/news/153829792548181348.html

上代码：

import urllib.request
import requests
from bs4 import BeautifulSoup

url = "http://www.jwc.hbnu.edu.cn/news/153829792548181348.html"
response = urllib.request.urlopen(url)
html = response.read().decode("GBK")
#print(html)
soup = BeautifulSoup(html,"html.parser")
title = soup.find("div", class_ = "btbt").h3.text.strip()
print(title)

一些知识点之前已经介绍过了，这里说些小技巧：

1.我们得到html会出现是二进制编码的情况，这里我们可以打开网页的审查元素：

输入document.charset就可以看到这个网页的编码了，我们在最后只需解码为该网页编码即可。

2.如何快速查找网页元素：

只需选中在审查元素中查找即可：

3.我们改一下代码，如下：

import urllib.request
import requests
from bs4 import BeautifulSoup

url = "http://www.jwc.hbnu.edu.cn/news/153829792548181348.html"
response = urllib.request.urlopen(url)
html = response.read().decode("GBK")
#print(html)
soup = BeautifulSoup(html,"html.parser")
title = soup.find("div", class_ = "title").text.strip()
title2 = soup.find("div", class_ = "con", id = "contentdisplay").text.strip()
print(title)

下面是效果：

猜你喜欢

转载自blog.csdn.net/ITxiaoangzai/article/details/83904139

python学习笔记之网络爬虫(七)爬取官网信息标题

python爬虫之爬取《贵州农经网》信息

python实战之网络爬虫（爬取新闻内文信息）

Python爬虫学习笔记（七）——智高考数据爬取

python网络爬虫爬取房价信息

python网络爬虫，爬取图片信息

python学习笔记之网络爬虫(八) 静态网页和动态网页爬取(1)静态网页爬取

#python学习笔记#使用python爬取拉勾网职位信息（二）：爬取数据

python网络爬虫学习笔记（十一）：Ajax数据爬取

Python网络爬虫学习之爬取豆瓣电影（四）

Python网络爬虫（七）了解爬取与反爬策略

网络爬虫之scrapy爬取某招聘网手机APP发布信息

爬虫学习之16：爬取简书网用户动态信息（异步加载页面的爬取）

python3爬虫实战-requests+beautifulsoup-杭电官网比赛信息实时爬取

python网络爬虫（爬取bilibili一位up的视频标题，评论数量等基本信息）

Python网络爬虫与信息提取（4）—— 实战之爬取亚马逊商品信息

scrapy爬虫之爬取拉勾网职位信息

pyspider爬虫框架之拉勾网招聘信息爬取

爬虫实战之全站爬取拉勾网职位信息

Python 爬虫爬取安智网应用信息

python爬虫— 拉勾网职位信息爬取

python爬虫爬取淘宝网商品信息

简单python爬虫爬取拉勾网职位信息

python爬虫-selenium爬取链家网房源信息

python爬虫练习爬取美团网酒店信息

python 学习 - 爬虫入门练习爬取链家网二手房信息

python网络爬虫——爬取网络关键字信息

《爬虫学习》（五）（爬虫实战之爬取天气信息）

Python爬虫入门实例七之网络图片的爬取和存储

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)