python爬取网站上所有诗句（第二版） - 代码天地

python爬取网站上所有诗句（第二版）

其他 2019-03-01 01:43:19 阅读次数: 0

第一版:

#-*-coding:utf8-*-

import requests
import re

# 获取网页源代码
kv = {'user-agent':'Mozilla/5.0'}
url = 'http://www.shicimingju.com/shicimark/qixijie.html'
html = requests.get(url, headers=kv)

poem = re.findall('<div class="summary">(.*?)</div>',html.text,re.S)
for each in poem:
    print(each)

这里通过requests库来获取网页源代码，再通过正则表达式来获取诗句，最后将需要的结果打印。

第二版：

import requests
import string
import re

# 获取网页源代码
kv = {'user-agent':'Mozilla/5.0'}
url = 'http://www.shicimingju.com/shicimark/qixijie.html'
html = requests.get(url, headers=kv)

poem = re.findall('<div class="summary">(.*?)</div>',html.text,re.S)

# 输出诗句信息
# i = 0
# for each in poem:
#     result = str.strip(each)
#     i += 1
#     print('%d'%i + ':%s\n'%result)

# 将信息写入poem.txt文件
f = open('poem.txt','a',encoding='utf-8')
i = 0
for each in poem:
    i += 1
    result = str.strip(each)
    f.write('%d'%i + ' : %s'%result + '\n\n')

print('The work have done')

这里对程序进行了审美的优化，另外将所有信息写入到了poem.txt文件中。（pycharm : 这里的poem.txt在工程内部，不需要写绝对路径了）

猜你喜欢

转载自blog.csdn.net/qq_40258748/article/details/87930589

python爬取网站上所有诗句（第二版）

Python爬虫—爬取某网站上面所有的世界港口信息数据

Python爬虫爬取网站上的图片

你有多久没有看星星了呢？【爬取NASA的科普网站上的所有图片】

请用 python+selenium 爬取 XXX 网站上的所有a链接的 href属性并访问，输出访问地址和状态码

网络爬虫——爬取网站所有Python书籍到数据库（Scrapy从入门到精通第二天）

Python3.5：爬取网站上电影数据

Python爬取网站上的内链和外链

利用python爬取实习僧网站上的数据

python爬取网站上的图片并保存到本地

python 实现爬取网站下所有URL

爬虫——爬取网站上的图片

《Python核心编程(第二版)》

python 爬取网站获得一个网站的所有链接

python +tkinter 12306网站车票查询系统，第二版

python(第二版)第二章答案

Python爬取前程无忧网站上python的招聘信息

python爬取所有股票报道

python爬取HDU所有题目

Python爬取网页所有小说

Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢

PYTHON爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢

Python转页爬取某铝业网站上的数据

Python爬取www.alexa.cn网站上的部分url和相应的等级

scrapy框架爬取智联招聘网站上深圳地区python岗位信息。

Python爬虫（一）：用 Requests + BeautifulSoup 爬取网站上的信息

怎样用python3爬取电子书网站所有下载链接

python爬取古诗文网站诗文一栏的所有诗词

python3爬取新闻网站的所有新闻-新手起步

Python3 实现爬取网站下所有URL方式

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)