爬虫小案例爬取笑话 xpath - 代码天地

爬虫小案例爬取笑话 xpath

其他 2018-08-12 12:36:26 阅读次数: 0

import requests
from lxml import etree


# 写入文件
def write_file(art):
	with open("笑话.txt", "a+", encoding="utf-8") as f:
		f.write(art)


# 解析html得到自己想要的内容
def parse_html(html):
	content = etree.HTML(html)
	a_lists = content.xpath('//div[@class="list_title"]/ul/li/b/a/@href')
	for a in a_lists:
		# # "http://www.jokeji.cn/jokehtml/%E5%86%B7%E7%AC%91%E8%AF%9D/201806212319307.htm"
		url = "http://www.jokeji.cn" + a
		result = requests.get(url)
		# 转化成gb2312编码
		result.encoding = "gb2312"
		result = result.text
		info = etree.HTML(result)
		art_lists = info.xpath('//span[@id="text110"]/p/text()')
		for art in art_lists:
			print(art)
			write_file(art)


def main():
	num = 1
	for i in range(10):
		url = "http://www.jokeji.cn/list_" + str(num) + ".htm"
		num += 1
		headers = {
			"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
		}
		html = requests.get(url, headers=headers)
		# 如果不知道是什么编码 此时可以print(html.encoding)查看一下是什么编码
		html.encoding = "gb2312"
		html = html.text
		parse_html(html)


if __name__ == '__main__':
	main()

猜你喜欢

转载自blog.csdn.net/antian1991/article/details/81140994

爬虫小案例爬取笑话 xpath

Python爬虫案例：利用Python爬取笑话网

用lxml的xpath演示爬虫提取笑话集网页其中的标题，url，浏览数，日期，笑话内容

【python爬虫系列】15.实战五爬取笑话大全

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

初探爬虫：xpath提取信息，爬取页面小案例

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

爬虫数据-Xpath(豆瓣读书小案例)

【Java】爬虫基础 -- XPath 小案例

网络爬虫 - 5 Xpath的使用方法与爬取案例

SwiftUI 小demo之 01 获取笑话并显示

Python爬取笑话存储在mysql里

Python 爬虫小练习：基于 XPath 的表格信息爬取

Python爬虫-爬取扇贝单词(Xpath)

python爬虫--用xpath爬豆瓣电影

爬虫学习：xpath爬取评书网

xpath案例-全国城市名爬取

Python案例：使用XPath的爬虫

python 利用Beautifulsoup爬取笑话网站

爬虫 - XPath

爬虫 xpath

爬虫（xpath）

爬虫——xpath

爬虫_xpath

XPath爬虫

爬虫的xpath

python爬虫三大解析数据方法：xpath 及爬段子网案例

爬虫爬取幽默笑话

Python爬虫(十三)_案例：使用XPath的爬虫

Python爬虫(十一)_案例：使用XPath的爬虫

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)