python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步） - 代码天地

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）

其他 2020-02-24 16:50:46 阅读次数: 0

 1 #!/usr/bin/env python  
 2 # -*- coding: utf-8 -*-  
 3 # python3
 4 import string
 5 import urllib
 6 from urllib import request
 7 from bs4 import BeautifulSoup
 8 
 9 url="https://ne0matrix.com/2020/01/08/伊朗，赢了"
10 # 有中文的url，直接urlopen会出错，需要quote处理一下。
safe=参数表示不需要被处理的字符，默认为/。现在设为string.printable表示非中文的不需要转换。
11 
12 url_quote=urllib.parse.quote(url,safe=string.printable)
13 # quote的逆向操作unquote：
14 # url_unquote=urllib.parse.unquote(url_quote
15 print (url_quote)
16 
17 page_read=request.urlopen(url_quote).read()
18 page_decode=page_read.decode('utf-8')
19 with open ('output.html','w')as f:
20     f.write(page_decode)
21 
22 with open ('output.html','r')as f:
23     alltext=f.read()
24 bsobj=BeautifulSoup(alltext,'html.parser')
25 # 如果不加html.parser则使用默认的lxmlparser，会有警告，但不影响使用
26 
27 print (bsobj.title)
28 # 获取标题<title>...
29 print (bsobj.title.get_text())
30 # get_text()获取纯文字的标题
31 date=bsobj.find('p',{'class':'mt-3'}).get_text()
32 print (date.strip())
33 # strip()去掉前后空格
34 count=bsobj.find('span',{'class':'post-count'})
35 print(count.get_text().strip())
36 text=bsobj.find('div',{'class':'markdown-body'})
37 print(text.get_text())
38 # 查找正文

猜你喜欢

转载自www.cnblogs.com/cityfckr/p/12357493.html

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）

Python爬虫伪装浏览器，初步提取信息！

Python网络爬虫与信息提取学习记录（2）——关于BeautifulSoup库的用法

Python提取信息测试

初识python爬虫 Python网络数据采集1.0 BeautifulSoup通过网站css爬取信息

爬虫笔记3-提取信息

python网络爬虫和信息提取笔记之BeautifulSoup类

【python】利用BeautifulSoup提取html中的标签、数据

python 爬虫提取文本之BeautifulSoup详细用法

python|爬虫beautifulsoup的用法

Python爬虫入门8：BeautifulSoup获取html标签相关属性

python爬虫基础（2：数据提取之BeautifulSoup）

python爬虫（三）：BeautifulSoup 【2. 标签的操作】

爬虫-提取信息-正则表达式

python 爬虫_BeautifulSoup详细用法

python进阶（爬虫 BeautifulSoup用法）

Python爬虫：BeautifulSoup用法总结

(python)Xpath如何提取html标签（HTML标签和内容）

python requests爬虫使用lxml解析HTML获取信息不对等的问题

(转)Python新手写出漂亮的爬虫代码1——从html获取信息

beautifulsoup提取所有<a>标签内容 Python

python爬虫使用requests和BeautifulSoup出现中文乱码

[译]使用 Python 的 Pandas 和 Seaborn 框架从 Kaggle 数据集中提取信息

自然语言处理（4）——从文本中提取信息

python爬虫之html解析Beautifulsoup和Xpath

python爬虫（三）：BeautifulSoup 【5. 信息提取（find_all）】

Python网络爬虫基于BeautifulSoup4库的信息提取

python爬虫练习之requests+BeautifulSoup库，提取影片信息，并保存至excel

python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行

Python网络爬虫与信息提取（2）—— 爬虫协议

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)