某留学论坛爬虫

如果仅仅是对某些学校的数据感兴趣,可以

(1)用不登陆的方式,获得整个网站的数据库

(2)此时用条件查询,筛选出所有兴趣学校的链接

(3)用另一张表存已经爬完的链接,这样,每当网站更新,我们可以取查询表和记录表的差集,获得新的需要更新的链接

select 网页
from school09
where 网页 not in 
(select 网页 from school10)
order by 网页
发布了839 篇原创文章 · 获赞 19 · 访问量 7万+

猜你喜欢

转载自blog.csdn.net/ujn20161222/article/details/104524633