使用BeautifulSoup读取网页时发生错误的处理方法 - 代码天地

使用BeautifulSoup读取网页时发生错误的处理方法

其他 2018-11-01 06:03:00 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/lingyunxianhe/article/details/82845988

刚开始学习BeautifulSoup在读取网页后解析网页内容时发生错误,先上一段运行代码:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
from urllib2 import urlopen
WebSite='http://www.weather.com.cn/weather/101010100.shtml'
soup = BeautifulSoup(WebSite,"html.parser")#"html.parser",,from_encoding="utf-8"
print soup.prettify()

我是想把给定网页的内容显示一下,但运行程序时出现如下错误:

/usr/lib/python2.7/dist-packages/bs4/__init__.py:282: UserWarning: "http://www.weather.com.cn/weather/101010100.shtml" looks like a URL. Beautiful Soup is not an HTTP client. You should probably use an HTTP client like requests to get the document behind the URL, and feed that document to Beautiful Soup.
' that document to Beautiful Soup.' % decoded_markup
http://www.weather.com.cn/weather/101010100.shtml

最后在stackoverflow上找到了答案,网址:https://stackoverflow.com/questions/24768858/beautifulsoup-responses-with-error

出现上述问题是因为程序中这条语句:soup = BeautifulSoup(WebSite,"html.parser")是有问题的,应该为:soup = BeautifulSoup(urlopen(WebSite),"html.parser")

正确的完整代码如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
from urllib2 import urlopen
WebSite='http://www.weather.com.cn/weather/101010100.shtml'
soup = BeautifulSoup(urlopen(WebSite),"html.parser")#"html.parser",,from_encoding="utf-8"
print soup.prettify()

猜你喜欢

转载自blog.csdn.net/lingyunxianhe/article/details/82845988

使用BeautifulSoup读取网页时发生错误的处理方法

使用urllib操作网页时出现ssl错误解决办法

读取网页时遇到“ERR_CONNECTION_CLOSED”

scrapy在采集网页时使用随机user-agent的方法的代码

scrapy 爬取https网页时出现ssl错误

（转）上网时遇到恶意网页时的现象及处理办法

Android的Webview加载网页时出现NETERR_CACHE_MISS的错误

当你浏览一个网页时发生了什么？即浏览网页的详细过程，从输入URL到页面加载发生了什么？

mac查看网页时翻页

加载网页时弹出div

CSS制作网页时的优化与技巧

jackson在处理json时发生错误：死循环报BeanSerializer 异常处理方法

电脑打开网页时，提示：“无法找到网页”，“找不到服务器或DNS错误”

使用selenium的webdriver动态爬取网页时遇到的问题

Selenium使用PhantomJS来爬取动态网页时遇到的问题

pr读取音频时在试图写入下列文件时发生了错误的一种可能解决方法

在使用git上传文件时发生的错误

使用butterKnife在编译时发生错误

dbutils中使用BeanListHandler时发生的错误

使用Pycharm安装插件时发生错误

Nginx部署静态网页时服务器文件存在打开却一直报404错误

springboot:DevTools导致读取redis时发生类型转换错误

python使用beautifulsoup中select方法爬虫时使用join和split方法配合处理特殊字符

spring mvc使用ModelAndView时发生No request handling method with name '方法名' in class [类名]的错误

Matlab使用xlsread读取EXCEL时发生错误：服务器出现意外情况删除加载项

Python获取网页指定内容(BeautifulSoup工具的使用方法)

使用beautifulsoup方法抓取51job网页数据

用httpclient抓取网页时gzip、deflate的解压

爬取动态网页时遇到的问题

JavaScript 刷新或关闭网页时弹窗确认

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)