Python3爬虫之爬取某一路径的所有html文件

要离线下载易百教程网站中的所有关于Python的教程，需要将Python教程的首页作为种子url：http://www.yiibai.com/python/，然后按照广度优先（广度优先，使用队列；深度优先，使用栈），依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取，使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url，获取到了文章的url，使用Python根据url生成html文件十分容易。

   
   
    
    
     
     
      
      
     
     
     
     
      
      
       
       import re
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       import urllib.request
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       import urllib
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       from collections 
       
       import deque
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       # 保存文件的后缀
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       SUFFIX=
       
       '.html'
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       # 提取文章标题的正则表达式
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       REX_TITLE=
       
       r'<title>(.*?)</title>'
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       # 提取所需链接的正则表达式
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       REX_URL=
       
       r'/python/(.+?).html'
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       # 种子url，从这个url开始爬取
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       BASE_URL=
       
       'http://www.yiibai.com/python/'
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
       
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
       
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       # 将获取到的文本保存为html文件
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       def saveHtml(file_name,file_content):
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       #    注意windows文件命名的禁用符，比如 /
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           
       
       with open (file_name.replace(
       
       '/',
       
       '_')+SUFFIX,
       
       "wb") 
       
       as f:
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       #   写文件用bytes而不是str，所以要转码
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
               f.write(bytes(file_content, encoding = 
       
       "utf8"))
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       #   获取文章标题
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       def getTitle(file_content):
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           linkre = re.search(REX_TITLE,file_content)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           
       
       if(linkre):
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
               print(
       
       '获取文章标题：'+linkre.group(
       
       1))
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
               
       
       return linkre.group(
       
       1)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
        
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       #   爬虫用到的两个数据结构，队列和集合
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       queue = deque()
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       visited = set()
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       #   初始化种子链接 
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       queue.append(BASE_URL)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       count = 
       
       0
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
        
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       while queue:
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         url = queue.popleft()  
       
       # 队首元素出队
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         visited |= {url}  
       
       # 标记为已访问
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
        
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         print(
       
       '已经抓取: ' + str(count) + 
       
       '   正在抓取 <---  ' + url)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         count += 
       
       1
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         urlop = urllib.request.urlopen(url)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       # 只处理html链接
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       if 
       
       'html' 
       
       not 
       
       in urlop.getheader(
       
       'Content-Type'):
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           
       
       continue
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
        
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       # 避免程序异常中止
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       try:
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           data = urlop.read().decode(
       
       'utf-8')
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           title=getTitle(data);
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           
       
       # 保存文件
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           saveHtml(title,data)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       except:
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
           
       
       continue
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
        
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       # 正则表达式提取页面中所有链接, 并判断是否已经访问过, 然后加入待爬队列
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         linkre = re.compile(REX_URL)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
         
       
       for sub_link 
       
       in linkre.findall(data):
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
             sub_url=BASE_URL+sub_link+SUFFIX;
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
       # 已经访问过，不再处理
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
             
       
       if sub_url 
       
       in visited:
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
                 
       
       pass
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
             
       
       else:
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
                 
       
       # 设置已访问
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
                 visited |= {sub_url}
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
                 
       
       # 加入队列
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
                 queue.append(sub_url)
      
      
     
     
    
    
     
     
      
      
     
     
     
     
      
      
       
                 print(
       
       '加入队列 --->  ' + sub_url)
Python3爬虫之爬取某一路径的所有html文件

猜你喜欢