python 爬虫搜狗词库 - 代码天地

python 爬虫搜狗词库

其他 2020-03-02 12:28:05 阅读次数: 0

完整版代码github地址：https://github.com/Monster2848/sougou_dic_spider

目标网站
在这里插入图片描述

下面有分类
在这里插入图片描述
点进社会科学–金融保险分类

我们需要获取的数据是词库标题和词库文件地址

通过查看请求发现这个网页并没有被加密

直接get请求就可以获得完整网页

然后要做的就是找到标题元素和立即下载元素提取内容和 url
在这里插入图片描述
写一下xpath 匹配规则

将爬到的内容保存到文件

以上是从官网爬取的方法
但是如果想要获取完整词库的话推荐去这个网站：http://wubi.sogou.com/dict/list.php?
这个网站更新的蛮快，并且没有设置分类限制，更容易获取数据

Mandy。

发布了66 篇原创文章 · 获赞 26 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43751840/article/details/90258088

python 爬虫搜狗词库

Scrapy 搜狗词库爬虫

Python 搜狗词库的批量下载

Python 解析百度，搜狗词库

搜狗词库爬虫（2）：基础爬虫框架的运行流程

搜狗音乐爬虫下载python

搜狗词库scel格式转为txt格式（python3版本）

ibus添加搜狗词库

python 爬虫 scrapy 爬取搜狗网址导航

Python新手爬虫二：爬取搜狗图片（动态）

Python爬虫爬取搜狗搜索到的内容页面

python之搜狗翻译爬虫(亲测可用)

ibus中使用搜狗词库

Python爬虫--我采用深度分页+企业分词词库技术--爬下天眼查全部数据

成功使用Python爬虫扇贝单词库实现自动测试我们的单词量

Python爬虫案例50篇-第4篇-搜狗图片爬虫（爬取美丽女孩子的图片）

python爬虫系列（2）：分析Ajax 爬取搜狗高清壁纸

【Python爬虫】爬虫实战

Python的爬虫与反爬虫

Python爬虫：爬虫demo

【python爬虫】初识爬虫

（爬虫）Python爬虫02

（爬虫）Python爬虫01

python爬虫--爬虫前奏

python爬虫

python 爬虫

python的爬虫

Python爬虫！

爬虫python

爬虫———python

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)