作为一名数据科学家,我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据,当时对我来说是一个完全陌生的概念,但它是最合理、最容易获取的数据来源之一。经过几次尝试,网络抓取已经成为我的第二天性,也是我几乎每天使用的技能之一。
在本教程中,我将介绍一个简单的例子,说明如何抓取一个网站,我将从Fast Track上收集2018年百强公司的数据:
Fast Track:
http://www.fasttrack.co.uk/
使用网络爬虫将此过程自动化,避免了手工收集数据,节省了时间,还可以让所有数据都放在一个结构化文件中。
用Python实现一个简单的网络爬虫的快速示例,您可以在GitHub上找到本教程中所介绍的完整代码。
GitHub链接:
https://github.com/kaparker/tutorials/blob/master/pythonscraper/websitescrapefasttrack.py
以下是本文使用Python进行网页抓取的简短教程概述:
● 连接到网页
● 使用BeautifulSoup解析html
● 循环通过soup对象找到元素
● 执行一些简单的数据清理
● 将数据写入csv
准备开始
在开始使用任何Python应用程序之前,要问的第一个问题是:我需要哪些库?