爬虫：爬取扇贝上python常用单词，减少登陆和贝壳的繁琐 - 代码天地

爬虫：爬取扇贝上python常用单词，减少登陆和贝壳的繁琐

其他 2018-06-19 20:14:13 阅读次数: 2

import requests
import re


file = open("vocabulary.doc", "w", encoding="utf-8")


def spider(url):
    res = requests.get(url).text
    pattern = '<strong>([a-z,A-Z]*?)</strong>\s*</td>\s*<td class="span10">(.*?)</td>'
    vocabulary_list = re.findall(pattern, res)
    for vocabulary in vocabulary_list:
        file.writelines((vocabulary[0].strip(''), vocabulary[1].strip(''), "\n"))


url_list = ["https://www.shanbay.com/wordlist/104899/202159/?page=",
            "https://www.shanbay.com/wordlist/104899/202162/?page=",
            ]
for url in url_list:
    for i in range(1, 10):
        url = "https://www.shanbay.com/wordlist/104899/202159/?page=" + str(i)
        spider(url)
file.close()

# 太实诚了，先放了源码，几行代码，纯粹是免登陆，免199贝壳去支付...拿下网页的单词

# 会生成一个word的结果文档在代码运行的同一目录下，结果如下，没有可以排版，最好是放在excel下。

猜你喜欢

转载自blog.csdn.net/defaulttest/article/details/80645509

爬虫：爬取扇贝上python常用单词，减少登陆和贝壳的繁琐

Python爬虫-爬取扇贝单词(Xpath)

Python - 爬虫爬取和登陆github

python梳理爬虫思路：静态页面爬取 +动态页面爬取 + 需要登陆的页面爬取（实战应用）

Python爬虫requests之扇贝单词

Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）

python3爬虫-通过selenium登陆拉钩，爬取职位信息

Python爬虫实战：基于Scrapy的淘宝登陆后实现数据爬取并保存到Mysql

网络爬虫-淘宝登陆+爬取卖家信息

python爬取知乎（模拟登陆）

Python爬取豆瓣网表单提交登陆

python之爬虫的入门05------实战：爬取贝壳网（用re匹配需要的数据）

Python爬虫基础--分布式爬取贝壳网房屋信息(Server)

Python爬虫基础--分布式爬取贝壳网房屋信息(Client)

Python爬虫---爬取网络上的图片

python爬虫 - 爬取豆瓣上的数据

python requests做爬虫爬取oxford词典单词音标

两个简单的xpath案例（爬取糗事百科 & 扇贝单词）

模拟登陆并爬取Github

Python3爬取迅捷语音转文字(包含持久化登陆和分片上传文件)

成功使用Python爬虫扇贝单词库实现自动测试我们的单词量

爬虫的基本原理、requests模块、模拟登陆网站、爬取视频网站、cookie池和代理池、正向代理和反向代理

python爬虫模拟登陆

【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据（免登陆）到生成词云

爬虫小案例：扇贝单词评估

利用python爬取贝壳网租房信息

python实战 | 爬取贝壳房源总数据价格提取

Python爬虫之路-爬取北、上、广租房信息

Python爬虫爬取网页上的所有图片

python爬虫爬取网页上的天气数据

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)