Python 解析百度，搜狗词库 - 代码天地

Python 解析百度，搜狗词库

其他 2018-11-28 16:05:17 阅读次数: 0

最近在解析百度词库https://shurufa.baidu.com/dict。说一下解决思路吧。

把文件下载下来会发现是字节流。而计算机存储数据有两种方式，大端字节序，小端字节序。

计算机的内部处理都是小端字节序。人类还是习惯读写大端字节序。所以，除了计算机的内部处理，其他的场合几乎都是大端字节序，比如网络传输和文件储存。

计算机处理字节序的时候，不知道什么是高位字节，什么是低位字节。它只知道按顺序读取字节，先读第一个字节，再读第二个字节。

如果是大端字节序，先读到的就是高位字节，后读到的就是低位字节。小端字节序正好相反。

而百度词库在存储的时候使用了大端存储，但如果想要解析出汉字，需要先将大端存储转为小端存储

def be2le(self):
        of = open(self.originfile,'rb')
        lef = open(self.lefile, 'wb')
        contents = of.read()
        contents_size = contents.__len__()
        mo_size = (contents_size % 2)
        #保证是偶数
        if mo_size > 0:
            contents_size += (2-mo_size)
            contents += contents + b'0000'
        #大小端交换
        for i in range(0, contents_size, 2):
            self.buf[1] = contents[i]
            self.buf[0] = contents[i+1]
            le_bytes = struct.pack('2B', self.buf[0], self.buf[1])
            lef.write(le_bytes)
        print('写入成功转为小端的字节流')
        of.close()
        lef.close()

之后再读取字节流，每4位解析成一个汉字字母或者字符。注意百度词库解析是从0x350这个位置开始。再根据规律拼接。经实测搜狗词库的解析上面代码同样适用起始位置改为0x2628.

详情在我的git上https://github.com/zhao-dapeng/Lexicon-analysis/blob/master/baidudict.py好用的话记得点个start

猜你喜欢

转载自blog.csdn.net/qq_37107304/article/details/83620636

Python 解析百度，搜狗词库

python 爬虫搜狗词库

Python 搜狗词库的批量下载

python实现调取百度AI人脸检测接口并解析72个脸部特征点

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析

初触Python,关于pyquery解析html（百度贴吧）

Python-调用百度旅游API接口数据解析(入门级)

Python爬取百度搜索的标题和真实URL的代码和详细解析

python爬虫百度翻译

python爬虫-百度/360搜索

Python爬取百度图片

PYTHON 抓去京东,百度的数据

python 百度图片爬虫

Python 爬取百度音乐

Python ：获取百度图片API

python爬虫(百度音乐)

面向百度学Python（一）

python爬虫(百度图片)

[python]百度贴吧爬虫

Python百度语音合成

python——百度文库爬取

python爬百度翻译demo

python爬百度文库课件

Python 爬取百度图片

python 模拟百度搜索

python使用百度翻译api

Python调用百度翻译api

python从百度捉股票值

python百度翻译api

Python模拟百度登录

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)