网络爬虫基础

网络爬虫

  • 网络蜘蛛、网络机器人,抓取网络数据的程序
  • 用Python程序去模仿人去访问网站,模仿的越逼真越好
  • 通过有效的大量数据分析市场走势、公司决策

企业获取数据的方式

  • 公司自有数据
  • 第三方数据平台购买
  • 爬虫爬取数据

Python做爬虫优势

  • 请求模块、解析模块丰富成熟,强大的scrapy框架
  • PHP:对多线程、异步支持不太好
  • JAVA:代码笨重,代码量很大
  • C/C++:虽然效率高,但是代码成型很慢

爬虫分类

通用网络爬虫

搜索引擎引用,需要遵守robots协议

聚焦网络爬虫

自己写的爬虫程序:面向主题的爬虫、面向需求的爬虫

爬取数据步骤

  • 确定需要爬取的URL地址
  • 通过HTTP/HTTPS协议来获取相应的HTML页面
  • 提取HTML页面有用的数据
    • 所需数据,保存
    • 页面中有其他的URL,继续 第2步

转载于:https://www.jianshu.com/p/6c65c88611cf

猜你喜欢

转载自blog.csdn.net/weixin_34194702/article/details/91228931