关于爬虫中获取目标网页编码、解码信息

在网页爬取过程中,在爬取到相关信息后,还要进行编解码的操作,编码encode,解码decode,其实对于现如今的网站来讲,百分制70的网页的解码decode格式都是utf-8

但是,如果你在尝试使用utf-8无法解码的时候,你可以通过网页工具,查看后得到相关内容

具体操作步骤

右击鼠标,点击检查,出现这样的一个界面

 然后点击上面哪一行中的netork,点进去之后,我们可以注意到上边有个框子里有Search,点进去输入charset,然后单击那个圆圈

就会出现下边这么一长串的东西

 点击第一个,可以看到它转到了这样一个界面

加粗的那一个部分可以看到有charset后边有utf-8的字样,这就是网页的编码形式。

或者可以点击Console,在里边输入document.charset,也可以查看网页编码形式。

要解码成的编码格式,注意和编码用的编码格式要一致

猜你喜欢

转载自blog.csdn.net/qq_61210648/article/details/126091648