python2.7 scrapy

把输出的数据保存到json中:scrapy crawl toscrape-wang -o quotes_wang.json


name是爬虫名,这个是唯一的。

start_urls是你要访问的网站。


div.col-xl-4是你要抓取数据中的div的class

p是标签

card-text是标签的id或者classs

得到a标签中的href:response.css("a.card-footer-item::attr(href)").extract_first()


得到没有class标签中的文本:response.xpath('//div[@class="card-body bg-dark text-white"]//text()').extract()

访问出现:DEBUG: Crawled (200) <GET http://jandan.net/duan/>

表示网站采用了防爬技术,settings.py文件中添加:

  1. USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 

dict判断是否有这个键:usl.has_key(h) == False

返回的数据中文格式是Unicode时,在settings.py中添加FEED_EXPORT_ENCODING = 'utf-8',输出的中文就会是中文。

猜你喜欢

转载自blog.csdn.net/optimistic001/article/details/80264755