五步法破解字体反爬虫
由于字体的加载和映射工作都是由css
完成的,所以就算是借助来自动化工具也无法获取对应的文字内容
就是这种情况,它就是字体反爬虫,与之前SVG
反爬虫最大的区别就是,它所有的class
都是一个值,而且标签的文本也是一个方框来表示的,所以处理起来可能会比较复杂,不要担心,继续跟着我的思路,你会豁然开朗,加油吧!
再来看看网页的源码
可以看到,在网页源码里面,是不同的类似符号的数据来代表网页的显示数据,例如
""".代表的就是网页显示的9.7"""
我们可以针对这种映射关系来破解字体反爬,但是,如果网站有多套字体映射,那这个恐怕就不好用了,我们要用Python
来实现这种映射算法,这样就算网站更换来其他字体,我们也不用担心爬虫的