如果仅仅是对某些学校的数据感兴趣,可以
(1)用不登陆的方式,获得整个网站的数据库
(2)此时用条件查询,筛选出所有兴趣学校的链接
(3)用另一张表存已经爬完的链接,这样,每当网站更新,我们可以取查询表和记录表的差集,获得新的需要更新的链接
select 网页
from school09
where 网页 not in
(select 网页 from school10)
order by 网页
如果仅仅是对某些学校的数据感兴趣,可以
(1)用不登陆的方式,获得整个网站的数据库
(2)此时用条件查询,筛选出所有兴趣学校的链接
(3)用另一张表存已经爬完的链接,这样,每当网站更新,我们可以取查询表和记录表的差集,获得新的需要更新的链接
select 网页
from school09
where 网页 not in
(select 网页 from school10)
order by 网页