1. Taobao Website Gesetz
https :. //s.taobao.com /list?spm=a21bo.2017 201.867-Links-0.6.5af911d9OXqjyt & q = suchen Wort & cat = 16 & style = grid & seller_type = taobao & bcoffset = 0 & s = (p -1) * 60
1.1 Hinweis:
Daten im Quellcode können direkt Crawl sein, keine Quellcode, Web-Seiten, aber einige Informationen in der JS-Datei versteckt, muß dann einklemmen.
1.2 Bild-URL kopieren auf ebay Seite:
https://g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i3/224680019/O1CN01uIilBc1C0k57Kg2Kv_!!0-saturn_solar.jpg_250x250.jpg_.webp wir zu diesem Zeitpunkt nur eine kleine Figur zu sehen, die nicht HD Fig. Die Lösung der Website:
Bilder in der Position des Servers gespeichert, nicht kontrollieren:
https://g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i3/224680019/:
Bildgröße und andere wichtige Informationen:
jpg_250x250.jpg_.webp
Der Kernteil der Fotodaten: O1CN01uIilBc1C0k57Kg2Kv _ !! 0-saturn_solar
Suchen Sie Fotos 1.3 Kerndaten im Quelltext:
O1CN01uIilBc1C0k57Kg2Kv _ !! 0-saturn_solar, werden Sie url finden, wie in Foto gezeigt. Refresher "pic_url": "// g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i3/224680019/O1CN01uIilBc1C0k57Kg2Kv_!!0-saturn_solar.jpg". Mit dem Präfix https, offene High-Definition-großen Bild-Browser zu sehen.
1.3 von Foto-URL regelmäßige Extraktion: "pic_url": "//(.*)?"
import urllib.request
import re
keyname='短裙'
key=urllib.request.quote(keyname)
for i in range(0,5):
url='https://s.taobao.com/list?q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=0&s='+str(i*60)
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
#正则提取
pat='pic_url":"//(.*?)"'
imageurl=re.compile(pat).findall(data)
print(imageurl)
import urllib.request
import re
keyname='短裙'
key=urllib.request.quote(keyname)
headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
for i in range(0,5):
url='https://s.taobao.com/list?q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=0&s='+str(i*60)
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
#正则提取
pat='"pic_url":"//(.*?)"'
imageurl=re.compile(pat).findall(data)
print(imageurl)
import urllib.request
import re
keyname="神舟"
key=urllib.request.quote(keyname) #编码
#尝试爬取前三页内容
for i in range(0,3):
#构造页面URL
url="https://s.taobao.com/search?q="+key+"&s=44"
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat='pic_url":"//(.*?)"'
#获得图片URL
imagelist=re.compile(pat).findall(data)
print(imagelist)
import urllib.request
import re
keyname="神舟"
key=urllib.request.quote(keyname) #编码
#尝试爬取前三页内容
for i in range(0,3):
#构造页面URL
url="https://s.taobao.com/search?q="+key+"&s=44"
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat='pic_url":"//(.*?)"'
#获得图片URL
imagelist=re.compile(pat).findall(data)
for j in range(0,len(imagelist)):
thisimg=imagelist[j]
#构造图片URL
thisimgurl="http://"+thisimg
file=" F:/jupyterpycodes/python_pachongfenxi/result/taobaoIMG/"+str(i)+str(j)+".jpg"