网络爬虫:又被称为网页蜘蛛,网络机器人,是一种按照一定规则自动抓取网上信息的程序或脚本。
基础知识:想要用爬虫技术到网上爬取自己想要的数据,需要大概的了解一下W3C标准(HTML、JSON、XPath等)与HTTP协议标准(HTTP请求过程、请求方式、Cookie状态管理等)。
百度地图API
百度地图API:百度地图大家都有用过,但这个API又是哈?百度地图API是为开发者提供http/https接口,即开发者通过http/https形式发起检索请求,获取返回json或xml格式的检索数据。
行政区划区域检索:开发者可通过该功能,检索某一行政区划内(目前最细到城市级别)的地点信息。
http://api.map.baidu.com/place/v2/search?query=银行®ion=北京&output=json&ak=申请的密钥
圆形区域检索:开发者可设置圆心和半径,检索圆形区域内的地点信息(常用于周边检索场景)。
http://api.map.baidu.com/place/v2/search?query=银行&location=39.915,116.404&radius=2000&output=xml&ak=申请的密钥
矩形区域检索:开发者可设置检索区域左下角和右上角坐标,检索坐标对应矩形内的地点信息
http://api.map.baidu.com/place/v2/search?query=银行&location=39.915,116.404&radius=2000&output=xml&ak=申请的密钥
示例:通过行政区域检索益阳市的景区信息,在浏览器中输入如下信息
http://api.map.baidu.com/place/v2/search?query=景区®ion=益阳&output=json&page_size=5&ak=申请的密钥
返回的信息为JSON格式(可修改为XML)。
单次访问服务最多同时返回400条数据。,此限制无法修改。
每页最多返回20条查询信息,超过20条可通过page_num参数解决。
基于Python 的爬虫技术,结合百度地图API,获取益阳全市境内的所有场景信息(小区、景区、学校、商业广场等)。主要用到requests与json两个模块。