python爬取转转商品列表

 
 
 
 

爬取内容:http://bj.58.com/pbdn/0/

爬取内容要求:

http://study.163.com/course/courseLearn.htm?courseId=1002810012#/learn/text?lessonId=1003459155&courseId=1002810012

爬取代码如下:

from bs4 import BeautifulSoup
import requests
import time

url='http://bj.58.com/pbdn/0/'
info=[]

def get_attr(url):
    wb_data=requests.get(url)
    time.sleep(1)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    classifys = soup.select('#nav > div > span > a ')
    titles = soup.select("body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1")
    prices = soup.select( 'body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i ')
    areas = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
    browserNums = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > p > span.look_time')
    data={
        'classify':classifys[3].get_text().strip(),
        'title':  titles[0].get_text(),
        'price': prices[0].get_text(),
        'area':areas[0].get_text(),
        'view':browserNums[0].get_text()
    }
    print(data)


init_data=requests.get(url)
soup0=BeautifulSoup(init_data.text,'lxml')
accurates=soup0.select('#jingzhun > tbody > tr > td.tc > p')

links=soup0.select('td.t a.t')
for link in links:
    url3=link.get("href")
    if"zhuanzhuan" in url3:
        info.append(url3)

for i in info:
   print(get_attr(i))

爬取结果如下:

{'classify': '北京平板电脑', 'title': 'ipad Pro 国行  512G  10.5寸', 'price': '5580', 'area': '北京-丰台', 'view': '15次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad Pro 12.9', 'price': '5678', 'area': '北京-朝阳', 'view': '110次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad pro12.9二代', 'price': '5300', 'area': '北京-丰台', 'view': '165次浏览'}
None
{'classify': '北京平板电脑', 'title': '苹果ipad pro256G最大内存12.9英寸大屏幕', 'price': '5500', 'area': '北京-东城', 'view': '75次浏览'}
None
{'classify': '北京平板电脑', 'title': '12.9寸 iPad Pro2 256金色官换全新带包装', 'price': '6300', 'area': '北京-丰台', 'view': '166次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad por', 'price': '4500', 'area': '北京-宣武', 'view': '483次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPadmini4 128G', 'price': '2688', 'area': '北京-海淀', 'view': '149次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro12.9 2017款4g 512g国行9.9新', 'price': '7000', 'area': '北京-海淀', 'view': '792次浏览'}
None
{'classify': '北京平板电脑', 'title': '滚滚滚滚滚', 'price': '8.9万', 'area': '北京-顺义', 'view': '73次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad Pro 9.7寸+键盘拆封玩了几天,一直闲置', 'price': '4950', 'area': '北京-朝阳', 'view': '228次浏览'}
None
{'classify': '北京平板电脑', 'title': 'IPad pro 10.5   国行  256G', 'price': '4800', 'area': '北京-海淀', 'view': '823次浏览'}
None
{'classify': '北京平板电脑', 'title': '17款iPad Pro 12.9美版4G灰色金色', 'price': '5800', 'area': '北京-海淀', 'view': '141次浏览'}
None
{'classify': '北京平板电脑', 'title': '北京专业收卡小李竭诚为你服务京东商通中欣王府井', 'price': '9999', 'area': '北京-崇文', 'view': '479次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad mini 九五成新 16G闲置转了', 'price': '899', 'area': '北京-朝阳', 'view': '7221次浏览'}
None
{'classify': '北京平板电脑', 'title': 'IPad Pro 9.7英寸深空灰128G+cellular', 'price': '4000', 'area': '北京-朝阳', 'view': '4846次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro10.5寸', 'price': '7888', 'area': '北京-海淀', 'view': '437次浏览'}
None
{'classify': '北京平板电脑', 'title': '刚买不到一个月', 'price': '5999', 'area': '北京-怀柔', 'view': '913次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad pro 10.5 64G 99成新', 'price': '6300', 'area': '北京-朝阳', 'view': '1344次浏览'}
None
{'classify': '北京平板电脑', 'title': '苹果Apple新款iPad Pro 12.9 256G 插卡', 'price': '5999', 'area': '北京-西城', 'view': '1501次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro', 'price': '5000', 'area': '北京-朝阳', 'view': '848次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad pro  12.9 .全新 ,256G', 'price': '6600', 'area': '北京-丰台', 'view': '239次浏览'}
None
{'classify': '北京平板电脑', 'title': '公司年会发的ipad pro 9.7寸的全套产品,诚心的密', 'price': '6000', 'area': '北京-朝阳', 'view': '3082次浏览'}
None
{'classify': '北京平板电脑', 'title': '作为一个专业的买手 分享下北京的骗子手段', 'price': '10万', 'area': '北京-朝阳', 'view': '5932次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad mini', 'price': '960', 'area': '北京-朝阳', 'view': '3944次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad air 2 金色 64GB', 'price': '3000', 'area': '北京-西城', 'view': '2197次浏览'}
None

很明显爬取出来的结果每个都莫名奇妙的出现了一个none  这是为什么呢?

我也不知道orz


猜你喜欢

转载自blog.csdn.net/ScanQ/article/details/80366424