&#x开头的是什么编码呢？？？ - 代码天地

&#x开头的是什么编码呢？？？

其他 2019-09-05 11:57:50 阅读次数: 0

做爬虫的时候，拿到的页面有可能大面积出现类似这样的字符&#dddd;&#xhhhh;&#name; HTM，这些字符是HTMLL、XML 等 SGML 类语言的转义序列（escape sequence）。它们不是「编码」。

以 HTML 为例，这三种转义序列都称作 character reference：

前两种是 numeric character reference（NCR），数字取值为目标字符的 Unicode code point；以「&#」开头的后接十进制数字，以「&#x」开头的后接十六进制数字。
后一种是 character entity reference，后接预先定义的 entity 名称，而 entity 声明了自身指代的字符。

numeric character reference（NCR），直译就是数字字符引用。一个Numeric Character Reference编码是由一个与号(&)跟着一个井号(#)，然后跟着这个字符的Unicode编码值，最后跟着一个分号组成的，就像上面的例子一样。

有了数字字符引用，就可以在网页中显示Unicode字符了，不用考虑html文件本身的编码，因为数字字符引用只用到ASCII字符集里的字符。所以，即使在gb2312编码的网页中，也可以用NCR显示埃及的象形文字了。

如何在python中处理&#X开头的字符串呢？

# coding=utf-8

def dec(a):

# &#x 开头解码 : 以 &# 或 &#x 开头的字符串叫做 NCR 字符

# 通过 py2.x下的HTMLParser 或 py3.x下的html 的 unescape() 方法来转换成能看懂的中文字符

aa = a.replace(';', '').replace('&#x', '\\u').encode('utf-8').decode('unicode_escape')

print(aa)

更多技术咨询可关注：gzitcast

猜你喜欢

转载自www.cnblogs.com/heimaguangzhou/p/11464925.html

&#x开头的是什么编码呢？？？

106开头的短信是什么？

JSON是什么呢

生活是什么呢？

爱是什么呢？

Skynet是什么呢？

NFT是什么呢？

&#x54C8是什么编码？Html实体

请问1^x+2^x+3^x+\cdots +n^x的算式是什么呢？

直接用输入法打出来的字是什么编码的呢？

Servlet的机制是什么呢？

JAVA反射是什么呢？

方法重载是什么呢？

TO B是什么？TO C呢？

“python爬虫“是什么呢？

VUE的MVVM是什么呢?

43.240.157.X服务器里面无法上网是什么原因呢？

前缀编码是什么？哈夫曼编码是什么？

ANSI ANSI是什么编码？

-ms-touch-action是什么呢

PCB板到底是什么呢

【SVN】trunk、branch、tag是什么呢？

车牌识别sdk开发是什么呢？

类与实例到底是什么呢？

亚稳态到底是什么呢？

href="#"是什么意思呢?

JWT究竟是什么呢?

闭包是什么？事件冒泡呢？

bind 0.0.0.0的作用是什么呢？

自动装箱的本质是什么呢？

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)