python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例 - 代码天地

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

其他 2018-07-05 23:05:10 阅读次数: 0

以前搞偷偷摸摸的事，不对，是搞爬虫都是用urllib，不过真的是很麻烦，下面就使用requests + BeautifulSoup 爬爬简单的网页。

详细介绍都在代码中注释了，大家可以参阅。

# -*- coding: utf-8 -*-
"""
Created on Thu Jul  5 20:48:25 2018
@author: brave-man
blog: http://www.cnblogs.com/zrmw/
python3 + anaconda（Spyder） + resquests + BeautifulSoup
这里环境用的就是昨天讲的 anaconda 下的 Spyder，非常方便，谁用谁知道
"""

import requests
from bs4 import BeautifulSoup
# from termcolor import colored

# 控制台输出文本颜色控制，网络不太好，没有安装termcolor，不过在公司测试过，函数传参应该没有问题
# print("abc", "red")

# 通过requests库中的get方法获取整个响应页面，存放在res中
res = requests.get("https://www.cnblogs.com/zdong0103/p/8492779.html")
# (1) res.encoding = "utf-8"
soup = BeautifulSoup(res.text, "html.parser")
# 这时候如果打印的soup的话，会在控制台中输出整个响应页面的源代码
# print(soup)
# 如果打印的是乱码，则可以在 (1) 处添加 (1) 所示代码，设置编码格式，不过有时候是不需要的。

# 接下来对网页的源码进行剖析
""" 

在网页中按 F12 查看网页源代码，文章标题在 class = "block_title" 里面,
soup.select(".block_title") 获取的是一个列表，获取此列表的第一个元素，
所以 index = 0 ， 从标签中获取文本一般使用 text 方法即可
同上，正文在 class = "blogpost-body"
...

"""
title = soup.select(".block_title")[0].text
texts = soup.select(".blogpost-body")[0].text
time = soup.select(".itemdesc span")[0].text
author = soup.select("#header")[0].text

print(title, author, time, texts)

发现自己表述能力真的是渣啊，慢慢提高吧。

猜你喜欢

转载自www.cnblogs.com/zrmw/p/9270898.html

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

Python爬虫学习三------requests+BeautifulSoup爬取简单网页

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

python3 爬虫（requests+BeautifulSoup）

使用requests+BeautifulSoup的简单爬虫练习

Python爬虫自学之第（③）篇——实战：requests+BeautifulSoup实现静态爬取

爬虫实战：Requests+BeautifulSoup 爬取京东内衣信息并导入表格（python）

[Python][爬虫03]requests+BeautifulSoup实例:抓取图片并保存

python获取网页page数，同时按照href批量爬取网页（requests+BeautifulSoup）

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片—代码完善

ython 从零开始爬虫(三)：实战：requests+BeautifulSoup实现静态爬取

[Python][爬虫02]requests+BeautifulSoup实例:抓取网易云歌单

python爬虫练习之requests+BeautifulSoup库，提取影片信息，并保存至excel

requests+beautifulsoup爬取豆瓣图书

python爬虫爬取招聘（ requests，BeautifulSoup）

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

【爬虫学习一】 Python实现简单爬虫（requests，BeautifulSoup）

爬取58同城二手电脑一页的商品数据，requests+BeautifulSoup

使用requests+BeautifulSoup爬取龙族V小说

Python requests+BeautifulSoup 采集安居客_新房信息

Python requests+BeautifulSoup 采集房天下_新房信息

Python requests+BeautifulSoup 采集美团_家装网_上海电话

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

Python爬虫（一）：用 Requests + BeautifulSoup 爬取网站上的信息

python战反爬虫：爬取猫眼电影数据 (一）（Requests, BeautifulSoup, MySQLdb,re等库)

Python爬虫学习（一）使用Requests和正则表达式爬取简单网页

python3爬虫爬取网页图片简单示例

python爬虫爬取虎牙数据（简单利用requests库以及Beautifulsoup）

Python网络爬虫与信息提取（一）——Requests库的安装、Requests库的get()方法、爬取网页的通用代码框架

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)