爬虫-关于58同城繁体字解析 - 代码天地

爬虫-关于58同城繁体字解析

其他 2019-05-05 15:21:19 阅读次数: 0

import re
import base64
from io import BytesIO
from fontTools.ttLib import TTFont
import requests
from lxml import etree

session = requests.session()
response = session.get(url='https://bj.58.com/chuzu/')
bs64_str = re.findall("charset=utf-8;base64,(.*?)'\)", response.text)[0]

def get_page_show_ret(string):
    font = TTFont(BytesIO(base64.decodebytes(bs64_str.encode())))
    c = font['cmap'].tables[0].ttFont.tables['cmap'].tables[0].cmap
    ret_list = []
    for char in string:
        decode_num = ord(char)
        if decode_num in c:
            num = c[decode_num]
            num = int(num[-2:])-1
            ret_list.append(num)
        else:
            ret_list.append(char)
    ret_str_show = ''
    for num in ret_list:
        ret_str_show += str(num)
    return ret_str_show

将爬取的数据遍历调用上面的函数就可以解析

monery = html.xpath('//div/ul/li/div[3]/div[2]/b/text()')[:10]
price = []
for i in monery:
    p = get_page_show_ret(i)
    price.append(p)

猜你喜欢

转载自blog.csdn.net/SJK__/article/details/88935373

爬虫-关于58同城繁体字解析

常用繁体字大全

中文繁体字转简体

Eclipse打开java文件繁体字

微软拼音出现繁体字

爬虫中文乱码繁体字乱码问题解决

关于python3.7读取txt文件输出繁体字的处理办法

python 繁体字与简体字互相转换

Java程序实现繁体字转换简体字

API实现快速转换简体字与繁体字

python爬虫58同城租房

eclipse中输入繁体字怎么回事？

idea中输入中文变成繁体字

IDEA输入时输入繁体字怎么解决

关于一些繁体字体显示乱码的问题

PHP简体字繁体字相互转换类

AndroidStudio中设置简体字繁体字的切换

python中繁体字与简体字的相互转换

Word - Word 文档如何切换简体字和繁体字？

部分简化字感觉不如繁体字有深意

网页如何实现一键切换繁体字或简体字呢？

Ubuntu 简体字和繁体字相互切换快捷键

C#把数据库表里简体字转化为繁体字

win10如何把繁体字改成简体字

[非技术]QQ输入法怎么打出繁体字

win10系统的字体突然变成繁体字，如何修改回简体中文

java实现数字0-9转换为繁体字

前端页面文字出现繁体字，乱码解决方案

nginx实现简体繁体字互转以及中文转拼音(ngx_set_cconv模块)

【安卓】处理Android Studio中文字体为繁体字

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)