scrapy 爬虫实战----爬取搜房网十六城市房产数据

流程

环境配置

python2.7
scrapy
lxml
pymysql
mysql8.0

分析网页

chrome浏览器,F12开发人员工具,查看要爬取的元素标签的标志。
这里要爬取的内容包括用户发布的内容,小区名,小区地址,房子大小,几室几厅,几层,朝向,建筑年代,房价,均价等信息。
这里写图片描述

这里写图片描述

这里写图片描述

查看各个元素标签特征,方便写对应的xpath。

item定义

根据要爬取的信息定义item。
item是scrapy的存储信息的结构,类似于dict。

class SofangSpiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    page = scrapy.Field()
    city = scrapy.Field()
    area = scrapy.Field()
    address = scrapy.Field()
    type_how_big = scrapy.Field()
    type_howmany_room = scrapy.Field()
    type_which_floor = scrapy.Field()
    type_direction = scrapy.Field()
    type_time = scrapy.Field()
    price = scrapy.Field()
    junjia = scrapy.Field()
'''

xpath描述

response.xpath("//div[@class='list_info clearfix']/div[@class='list_l']/div[@class='list list_free']/dl")

该语句定位到这里的dl标签,可以看到每页有25个dl标签,可以for循环处理,收取信息,再进入下一页。

进入下一页

scrapy通过request对网页进行下载再爬取,通过xpath锁定下一页标签对应的,href属性,发起请求,爬取下一页信息。

next_page = response.xpath("//li[@class='right']/a[@class='page']/@href").extract()

爬取信息存储

信息存储在mysql数据库,详见另一篇博客。
这里写图片描述
这里写图片描述

问题

导包问题

在pycharm下开发,始终找不到item.py文件。
解决方法:
这里写图片描述
将外层设为根目录,这样可以保证pycharm中没有错误,但在命令行里运行scrapy crawl 还是会报NO Moudle name “items”。
将from items import WebcrawlerScrapyItem改为
from ..items import WebcrawlerScrapyItem

“..”表示在上一级目录下找
解决。
cite: https://blog.csdn.net/Haihao_micro/article/details/78529370

中文编码问题

python2默认用ascii,程序中不能包含乃至输出中文,如果有中文会提示报错,
这里写图片描述
所以要声明编码

# coding:utf-8

此时,中文编码为utf-8,但print的时候会变成乱码,因为python2把数据读到内存中会使用’unicode’编码,原来的utf-8编码就乱了。如果用unicode就能正常显示

n = unicode(n,'utf-8') # utf-8转unicode
print(n)
print(type(n))  # unicode

如果unicode要转成utf-8就用encode

n = n.encode('utf-8')

猜你喜欢

转载自blog.csdn.net/san_junipero/article/details/80724035
今日推荐