Website Scraping with Python 阅读笔记

第一章

  工程涉及的基本工具:requests, beautiful soup, scrapy。

  法规与技术约定:read the Terms & Conditions and the Privacy Policy  of the website。让不让爬?
          See the robots.txt file 。哪些可以爬?
          website’s HTML code。目标网页涉及什么技术?

          taskand the website's structure.。该选什么工具?

  Terms and Robots重点读:scraper/scraping
                crawler/crawling
                   bot
                   spider
                 program

  网页技术:使用python的builtwith库探查网页使用的技术

  谷歌浏览器开发者工具:勘察网页

  工具选择:small project(简单页面、没有涉及js的) Beautiful Soup + requests or  use Scrapy。

       有大量数据的,追求性能的  Scrapy + Beautiful Soup。

       面对AJAX技术就要打电话摇人了,Selenium and Portia 出场。


 

          

          

    

  

猜你喜欢

转载自www.cnblogs.com/roygood/p/10242010.html
今日推荐