爬取CVPR 2018过程中遇到的坑

爬取 CVPR 2018 过程中遇到的坑

使用的模块

  • re
  • requests
  • lxml
  • bs4

过程

一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获取内容,
中间有一部分的是用正则进行匹配出想要的内容,写完了就想全部跑一遍试试吧。
爬到一半出错了,看了一下是这篇出问题了。
好吧,那就f12看看什么情况。

emmmmm....
跟之前的差不多啊...
直接复制下来匹配试试

。。。都能匹配到啊。。。

直到....emmmm....看看不print出来的是啥玩意...

\xa0 ??? 大哥你谁啊,怎么跑进来了呢???

\xa0

\xa0是什么?

最后

最后修改了一下正则...
嗯..解决了

猜你喜欢

转载自www.cnblogs.com/darkexisted/p/9692894.html
今日推荐