Pythonの爬虫類:淘宝網の画像爬虫類

1.淘宝網サイトの法則

HTTPS :. //s.taobao.com /list?spm=a21bo.2017 201867-リンク-0.6.5af911d9OXqjyt&Q =検索語&猫= 16&スタイル=グリッド&seller_type =淘宝網&bcoffset = 0&S =(P -1)* 60

1.1注:

ソースコード内のデータを直接クロールすることはできません。何のソースコード、Webページが、いくつかの情報は、JSファイルの中に隠され、その後、捕まるする必要があります。

eBayのページの1.2コピー画像URL:

https://g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i3/224680019/O1CN01uIilBc1C0k57Kg2Kv_!!0-saturn_solar.jpg_250x250.jpg_.webpこの時点で我々は唯一の小さな図を参照してください、ないHD図。Webサイトの解決:

サーバーの場所に保存された画像は、制御されません。

https://g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i3/224680019/:

写真のサイズやその他の重要な情報:

jpg_250x250.jpg_.webp

写真データのコア部分:O1CN01uIilBc1C0k57Kg2Kv _ !! 0-saturn_solar

写真にソースコード中の1.3コアデータを検索します。

O1CN01uIilBc1C0k57Kg2Kv _ !! 0-saturn_solar写真に示すように、あなたは、URLを見つけます。リフレッシャー "pic_url": "// g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i3/224680019/O1CN01uIilBc1C0k57Kg2Kv_!!0-saturn_solar.jpg"。高精細大画面のブラウザでご覧に開いて、HTTPSで始まります。
[画像のダンプはチェーンが失敗し、発信局は、直接アップロード(IMG-kiMroQDV-1584149980058)(:image.png添付)ダウン画像を保存することが推奨され、セキュリティチェーン機構を有していてもよいです]

定期的に抽出フォトURL 1.3: "pic_url": "//(.*)?"

import urllib.request
import re

keyname='短裙'
key=urllib.request.quote(keyname)

for i in range(0,5):
    url='https://s.taobao.com/list?q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=0&s='+str(i*60)
    data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
    #正则提取
    pat='pic_url":"//(.*?)"'
    imageurl=re.compile(pat).findall(data)
    print(imageurl)
import urllib.request
import re

keyname='短裙'
key=urllib.request.quote(keyname)

headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)

for i in range(0,5):
    url='https://s.taobao.com/list?q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=0&s='+str(i*60)
    data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
    #正则提取
    pat='"pic_url":"//(.*?)"'
    imageurl=re.compile(pat).findall(data)
    print(imageurl)
import urllib.request
import re

keyname="神舟"
key=urllib.request.quote(keyname) #编码

#尝试爬取前三页内容
for i in range(0,3): 
    #构造页面URL
    url="https://s.taobao.com/search?q="+key+"&s=44"
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    pat='pic_url":"//(.*?)"'
    #获得图片URL
    imagelist=re.compile(pat).findall(data)
    print(imagelist)


import urllib.request
import re

keyname="神舟"
key=urllib.request.quote(keyname) #编码

#尝试爬取前三页内容
for i in range(0,3): 
    #构造页面URL
    url="https://s.taobao.com/search?q="+key+"&s=44"
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    pat='pic_url":"//(.*?)"'
    #获得图片URL
    imagelist=re.compile(pat).findall(data)
    for j in range(0,len(imagelist)):
        thisimg=imagelist[j]
        #构造图片URL
        thisimgurl="http://"+thisimg
        file=" F:/jupyterpycodes/python_pachongfenxi/result/taobaoIMG/"+str(i)+str(j)+".jpg"


公開された47元の記事 ウォン称賛35 ビュー1816

おすすめ

転載: blog.csdn.net/weixin_43412569/article/details/104855018