要件の1の説明
図それは戦いのウェブサイトのアドレスをクロールは、次のとおりです。https://www.doutula.com/photo/list/、ウェブサイトは、以下のスクリーンショット:
今、私たちは、コード上で直接、次の、表現パッケージの2ページで最初の登りを取る必要があります。
2.コードの戦闘
2.1シングルスレッドクロール
from urllib import request
import requests
from lxml import etree
import re
import os
HEADERS= {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
def parse_url(url):
response = requests.get(url, headers=HEADERS)
text = response.text
html_str = etree.HTML(text)
imgs = html_str.xpath('//div[@class="page-content text-center"]//a/img[@class!="gif"]')
for img in imgs:
img_url = img.get('data-original')
alt = img.get('alt')
# 替换alt中的特殊字符
alt = re.sub(r'[\?\?\.,。,!!/]','',alt)
# 提取后缀名
suffix = os.path.splitext(img_url)[1]
filename = alt + suffix
print("正在下载:" + filename)
request.urlretrieve(img_url,'image/'+filename)
def main():
for i in range(1,3):
base_url = 'https://www.doutula.com/photo/list/?page={}'.format(i)
parse_url(base_url)
if __name__ == '__main__':
main()
シングルスレッドのクロールは、その後、遅すぎるダウンロード表現パッケージに、1件のダウンロードによるものなどの問題があります。この問題を解決するには、この問題を解決するために、複数のスレッドを使用することができます。
以上の2.2バージョンのスレッド
# Author:Logan
from urllib import request
import requests
from lxml import etree
import re
import os
from queue import Queue
import threading
# 定义生产者
class Procuder(threading.Thread):
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
def __init__(self, page_queue, img_queue, *args, **kwargs):
super(Procuder, self).__init__( *args, **kwargs)
self.page_queue = page_queue
self.img_queue = img_queue
def run(self):
while True:
if self.page_queue.empty():
break
url = self.page_queue.get()
self.parse_url(url)
def parse_url(self,url):
response = requests.get(url, headers=self.HEADERS)
text = response.text
html_str = etree.HTML(text)
imgs = html_str.xpath('//div[@class="page-content text-center"]//a/img[@class!="gif"]')
for img in imgs:
img_url = img.get('data-original')
alt = img.get('alt')
# 替换alt中的特殊字符
alt = re.sub(r'[\?\?\.,。,!!/*]', '', alt)
# 提取后缀名
suffix = os.path.splitext(img_url)[1]
filename = alt + suffix
self.img_queue.put((filename,img_url))
self.page_queue.task_done() # 让队列计数减一
class Counsumer(threading.Thread):
def __init__(self, page_queue, img_queue, *args, **kwargs):
super(Counsumer, self).__init__(*args, **kwargs)
self.page_queue = page_queue
self.img_queue = img_queue
def run(self):
print("============")
while True:
if self.img_queue.empty() and self.page_queue.empty():
break
filename,img_url = self.img_queue.get()
request.urlretrieve(img_url,'image/'+filename)
print("下载完成:%s" %filename)
self.img_queue.task_done()
def main():
page_queue =Queue(100)
img_queue = Queue(1000)
for i in range(1,2):
base_url = 'https://www.doutula.com/photo/list/?page={}'.format(i)
page_queue.put(base_url)
for i in range(5):
t1 = Procuder(page_queue, img_queue)
t1.start()
t1.join()
for i in range(5):
t2 = Counsumer(page_queue, img_queue)
t2.start()
t2.join() # 让主线程阻塞(等待子线程结束在结束)
if __name__ == '__main__':
main()
スレッドは、すべてのキュー、ない実行task_done(から取られている場合)、キューに参加し、最終的には終わりが(参加の最終的な実装では、存在しないかを決定することはできません)の結果を待つことができない、中断されていたであろう。それは理解されるように、一度task_doneは、キュー要素から削除ので、最後のキューのキュー長がゼロであるか否かに応じて端部を接合するときにメインスレッドの実行ので。