爬取内容:http://bj.58.com/pbdn/0/
爬取内容要求:
http://study.163.com/course/courseLearn.htm?courseId=1002810012#/learn/text?lessonId=1003459155&courseId=1002810012
爬取代码如下:
from bs4 import BeautifulSoup
import requests
import time
url='http://bj.58.com/pbdn/0/'
info=[]
def get_attr(url):
wb_data=requests.get(url)
time.sleep(1)
soup = BeautifulSoup(wb_data.text, 'lxml')
classifys = soup.select('#nav > div > span > a ')
titles = soup.select("body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1")
prices = soup.select( 'body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i ')
areas = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
browserNums = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > p > span.look_time')
data={
'classify':classifys[3].get_text().strip(),
'title': titles[0].get_text(),
'price': prices[0].get_text(),
'area':areas[0].get_text(),
'view':browserNums[0].get_text()
}
print(data)
init_data=requests.get(url)
soup0=BeautifulSoup(init_data.text,'lxml')
accurates=soup0.select('#jingzhun > tbody > tr > td.tc > p')
links=soup0.select('td.t a.t')
for link in links:
url3=link.get("href")
if"zhuanzhuan" in url3:
info.append(url3)
for i in info:
print(get_attr(i))
爬取结果如下:
{'classify': '北京平板电脑', 'title': 'ipad Pro 国行 512G 10.5寸', 'price': '5580', 'area': '北京-丰台', 'view': '15次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad Pro 12.9', 'price': '5678', 'area': '北京-朝阳', 'view': '110次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad pro12.9二代', 'price': '5300', 'area': '北京-丰台', 'view': '165次浏览'}
None
{'classify': '北京平板电脑', 'title': '苹果ipad pro256G最大内存12.9英寸大屏幕', 'price': '5500', 'area': '北京-东城', 'view': '75次浏览'}
None
{'classify': '北京平板电脑', 'title': '12.9寸 iPad Pro2 256金色官换全新带包装', 'price': '6300', 'area': '北京-丰台', 'view': '166次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad por', 'price': '4500', 'area': '北京-宣武', 'view': '483次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPadmini4 128G', 'price': '2688', 'area': '北京-海淀', 'view': '149次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro12.9 2017款4g 512g国行9.9新', 'price': '7000', 'area': '北京-海淀', 'view': '792次浏览'}
None
{'classify': '北京平板电脑', 'title': '滚滚滚滚滚', 'price': '8.9万', 'area': '北京-顺义', 'view': '73次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad Pro 9.7寸+键盘拆封玩了几天,一直闲置', 'price': '4950', 'area': '北京-朝阳', 'view': '228次浏览'}
None
{'classify': '北京平板电脑', 'title': 'IPad pro 10.5 国行 256G', 'price': '4800', 'area': '北京-海淀', 'view': '823次浏览'}
None
{'classify': '北京平板电脑', 'title': '17款iPad Pro 12.9美版4G灰色金色', 'price': '5800', 'area': '北京-海淀', 'view': '141次浏览'}
None
{'classify': '北京平板电脑', 'title': '北京专业收卡小李竭诚为你服务京东商通中欣王府井', 'price': '9999', 'area': '北京-崇文', 'view': '479次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad mini 九五成新 16G闲置转了', 'price': '899', 'area': '北京-朝阳', 'view': '7221次浏览'}
None
{'classify': '北京平板电脑', 'title': 'IPad Pro 9.7英寸深空灰128G+cellular', 'price': '4000', 'area': '北京-朝阳', 'view': '4846次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro10.5寸', 'price': '7888', 'area': '北京-海淀', 'view': '437次浏览'}
None
{'classify': '北京平板电脑', 'title': '刚买不到一个月', 'price': '5999', 'area': '北京-怀柔', 'view': '913次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad pro 10.5 64G 99成新', 'price': '6300', 'area': '北京-朝阳', 'view': '1344次浏览'}
None
{'classify': '北京平板电脑', 'title': '苹果Apple新款iPad Pro 12.9 256G 插卡', 'price': '5999', 'area': '北京-西城', 'view': '1501次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro', 'price': '5000', 'area': '北京-朝阳', 'view': '848次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad pro 12.9 .全新 ,256G', 'price': '6600', 'area': '北京-丰台', 'view': '239次浏览'}
None
{'classify': '北京平板电脑', 'title': '公司年会发的ipad pro 9.7寸的全套产品,诚心的密', 'price': '6000', 'area': '北京-朝阳', 'view': '3082次浏览'}
None
{'classify': '北京平板电脑', 'title': '作为一个专业的买手 分享下北京的骗子手段', 'price': '10万', 'area': '北京-朝阳', 'view': '5932次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad mini', 'price': '960', 'area': '北京-朝阳', 'view': '3944次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad air 2 金色 64GB', 'price': '3000', 'area': '北京-西城', 'view': '2197次浏览'}
None
很明显爬取出来的结果每个都莫名奇妙的出现了一个none 这是为什么呢?
我也不知道orz