马蜂窝当季城市 Top5 景点爬虫

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。本场 Chat 就是为了高效整理数据而诞生的,从分析你要提取的网站开始,到获取数据,再到数据的持久化储存。

本场 Chat 即将学到一下内容:

  1. 网站分析及项目设计;
  2. 使用 Beautifulsoup 爬取所有推荐城市信息;
  3. 使用 Xpath 爬取热门旅游信息;
  4. 爬取免费代理 IP 并测试质量;
  5. 正则表达式处理 URL;
  6. 配置 URL 字典动态设置请求头;
  7. 躲避爬虫蜜罐;
  8. Excel 分 Sheet 存取。

阅读全文: http://gitbook.cn/gitchat/activity/5c244915e153e3519c7200f4

一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看

猜你喜欢

转载自blog.csdn.net/valada/article/details/85648988