BeautifulSoupクロール映画の楽園フルストップムービーリソース

#クロール映画の楽園フルストップムービーリソースへのリンク
#機能:
#1、映画天国リソースのダウンロードリンクと出力を取得
csvファイルへのすべてのリンクの保存#2を、

インポート時
のインポート要求
BS4インポートBeautifulSoupから
インポートCSV


DEFスパイダー(URL):
ページグローバル、いいえ、Fはobjを
試して:
。ページ= + 1枚
の印刷( "{}ページの" .format(ページ))
(1)#time.sleep
#は、Webリンクを取得し、読み込み
HTML = requests.get(URL)
HTMLを。 =エンコード"GBK"
HTML = html.text
#beautfulSoupドキュメントの読み込み
ルートを= BeautifulSoup(HTML、 "lxmlの")
テーブルのリストを取得するための要素を見つける
のテーブルを= root.find( "DIV"、 attrsに= { "クラス": "co_content8"})。(見つける "UL")。find_all( "テーブル")
テーブル内のテーブルのための:
名前= table.find( "")。テキスト
、URL = "http://www.dytt8.net" + table.find( "")[ "HREF"]
文件写入操作
ライター= csv.writer( fobj)
writer.writerow([名前、URL])
なし+ = 1枚
の印刷( "いいえ:"、いや、名前、URL)
爬取下一页
#time.sleep(1)
のURL = root.find( "div要素」、ATTRS = { "クラス": "co_content8"}。)検索( "DIV"、ATTRS = { "クラス": "X"})find_all( "A")
寻找下一页的链接
uのためにURLを:
#プリント(url.text)
の試み:
u.text == "下一页"の場合:
URL =」https://www.dytt8.net/html/gndy/dyzz/"+u["href "]
プリント(URL)
#如有下一页
spiderA(URL)

を除く:#没有下一页
印刷( "完成")
#spiderA(URL)



BEGIN_TIME = time.time()
のurl = "https://www.dytt8.net/html/ gndy / dyzz / index.htmlの」
ページ= 0
なし= 0
fobj =オープン( "GBK "改行= '' "=をコードする、" movies.csv"、"重量)
蜘蛛(URL)
fobj.close()
END_TIME = time.time()
時間= END_TIME-BEGIN_TIME
M、S = divmod((時間)ラウンド、60)
印刷( "用时:{}分{} S" .format(M、S))

おすすめ

転載: www.cnblogs.com/billie52707/p/12113520.html