Python爬虫-爬取扇贝单词(Xpath) - 代码天地

Python爬虫-爬取扇贝单词(Xpath)

其他 2018-12-08 16:04:42 阅读次数: 0

爬取扇贝单词

======================

==================================================================================

<tr>

<td> </td>

<td> </td>

</tr>

==========================================================================

结果示例：

====================================================

 1 '''
 2 扇贝单词：
 3 1. 把python单词列表download下来
 4 2. 主要联系目的是xpath
 5 3. 理论上讲不需要登录
 6 4. https://www.shanbay.com/wordlist/104899/202159/
 7 '''
 8 from urllib import request
 9 from lxml import etree
10 
11 import json
12 
13 #词汇表
14 words = []
15 
16 
17 def shanbei(page):
18     url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page
19     print(url)
20 
21     rsp = request.urlopen(url)
22 
23     html = rsp.read()
24 
25     #解析html
26     html = etree.HTML(html)
27 
28     tr_list = html.xpath("//tr")
29 
30 
31     # 遍历每个tr元素，每一个tr对应一个单词和介绍
32     for tr in tr_list:
33         '''
34         查相应的单词和介绍
35         '''
36         word = {}
37 
38         strong = tr.xpath('.//strong')
39         if len(strong):
40             # strip把找到的内容去掉空格
41             name = strong[0].text.strip()
42             word['name'] = name
43 
44         # 查找单词的释义
45         td_content = tr.xpath('./td[@class="span10"]')
46         if len(td_content):
47             content = td_content[0].text.strip()
48             word['content'] = content
49 
50         print(word)
51 
52         if word != {}:
53             words.append(word)
54 
55 
56 if __name__ == '__main__':
57 
58     shanbei(2)

猜你喜欢

转载自www.cnblogs.com/xuxaut-558/p/10087880.html

Python爬虫-爬取扇贝单词(Xpath)

爬虫：爬取扇贝上python常用单词，减少登陆和贝壳的繁琐

两个简单的xpath案例（爬取糗事百科 & 扇贝单词）

Python爬虫requests之扇贝单词

Python爬虫-爬取豆瓣信息(selenium+xpath)

python爬虫--re结合xpath爬取图片

python爬虫--xpath结合re同时爬取文字与图片

python爬虫学习（十三）xpath爬取妹子图片

【Python爬虫】xpath爬取+保存至csv/xlsx文件

Python 爬虫小练习：基于 XPath 的表格信息爬取

python requests做爬虫爬取oxford词典单词音标

python xpath图片爬取

爬虫学习：xpath爬取评书网

成功使用Python爬虫扇贝单词库实现自动测试我们的单词量

爬虫小案例：扇贝单词评估

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

python爬虫系列(3.4-使用xpath和lxml爬取伯乐在线)

Python爬虫爬取百度搜索内容接口-xpath

Python爬虫爬取糗事百科(xpath+re)

python3爬虫学习之lxml与xpath实战爬取豆瓣热映

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

python网络爬虫之解析网页的XPath(爬取java职位信息)[三]

python爬虫之XPath（爬取51job招聘信息）

【Python学习之旅】---爬虫（xpath表达式，爬取网络段子和贴吧图片）

python爬虫学习（十二）xpath解析爬取58二手房

python3爬虫实践(正则+xpath 站长素材免费简历模板爬取)

Python爬虫-利用xpath解析爬取58二手房详细信息

Python爬虫基础（二）：使用xpath与jsonpath解析爬取的数据

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

Python爬虫之xpath 开启多线程爬取素材网图片-xpath应用、多线程应用、批量下载

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)