Python 爬虫+百度API

网络爬虫:又被称为网页蜘蛛,网络机器人,是一种按照一定规则自动抓取网上信息的程序或脚本。


图片

有啥作用 通过该技术可快速高效的在互联网上获取自己想要的大数据,是大数据分析的基础。
基础知识想要用爬虫技术到网上爬取自己想要的数据,需要大概的了解一下W3C标准(HTML、JSON、XPath等)与HTTP协议标准(HTTP请求过程、请求方式、Cookie状态管理等)。



百度地图API图片

百度地图API:百度地图大家都有用过,但这个API又是哈?百度地图API是为开发者提供http/https接口,即开发者通过http/https形式发起检索请求,获取返回json或xml格式的检索数据。


图片

创建API密钥http://lbsyun.baidu.com/apiconsole/key。打开该链接,用申请的百度帐号登录,单击创建应用,Referer白名单里面输入*,创建完成后可在查看应用中看到API密钥

图片


地点检索服务提供多种场景的地点(POI)检索功能,包括城市检索、圆形区域检索、矩形区域检索。开发者可通过接口获取地点(POI)基础或详细地理信息。该功能又分为行政区划区域检索、圆形区域检索、矩形区域检索


行政区划区域检索:开发者可通过该功能,检索某一行政区划内(目前最细到城市级别)的地点信息。

http://api.map.baidu.com/place/v2/search?query=银行&region=北京&output=json&ak=申请的密钥


圆形区域检索:开发者可设置圆心和半径,检索圆形区域内的地点信息(常用于周边检索场景)。


http://api.map.baidu.com/place/v2/search?query=银行&location=39.915,116.404&radius=2000&output=xml&ak=申请的密钥


图片矩形区域检索:开发者可设置检索区域左下角和右上角坐标,检索坐标对应矩形内的地点信息


http://api.map.baidu.com/place/v2/search?query=银行&location=39.915,116.404&radius=2000&output=xml&ak=申请的密钥


图片

示例:通过行政区域检索益阳市的景区信息,在浏览器中输入如下信息

http://api.map.baidu.com/place/v2/search?query=景区&region=益阳&output=json&page_size=5&ak=申请的密钥

图片

图片返回的信息为JSON格式(可修改为XML)。

图片单次访问服务最多同时返回400条数据。,此限制无法修改。

图片每页最多返回20条查询信息,超过20条可通过page_num参数解决。



Python爬虫+百度API



基于Python 的爬虫技术,结合百度地图API,获取益阳全市境内的所有场景信息(小区、景区、学校、商业广场等)。主要用到requests与json两个模块。


图片

图片

图片

图片有木有很实用,其实上面只是讲解了一个地点检索的功能,还有更玄酷的,比如时时路况查询,IP定位等。

图片


猜你喜欢

转载自blog.51cto.com/15069490/2578647