电影url 批两下载的思路和代码

import requests,re
from zhouliu.class_tt import class_tt

实例化一个添加数据到数据库的类

dytt_mysql=class_tt()
m=0
for i in range(1,5):
url=’http://www.dytt8.net/html/gndy/china/list_4_%d.html‘% i
print(url,’==’*50)
# url=’http://www.37cs.com/html/click/8040_2134.html

headers={
    'User-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
response=requests.get(url,headers)
partten='<a href="(.*)" class="ulink">'
# with open('dytt.html','wb') as ff:
#     ff.write(response.content)
html_text=response.text
res_url=re.findall(partten,html_text)
# print(len(res_url))

for res_all_url in res_url:
    res_one_url='http://www.dytt8.net/'+res_all_url

    sql='insert into dytt values(null,{})'.format(repr(res_one_url))
    dytt_mysql.add_pymysql(sql)
    # print(res_one_url)

电影天堂的爬取思路

《1》首先根据在浏览器中输入域名找到url 和下载网址

《2》获取url 并发现并不完整且页码毫无规律可言

《3》把url 的前半段改为http://www.dytt8.net 发现页码有规律了

《4》顺利爬取网站所有的url

猜你喜欢

转载自blog.csdn.net/chengjintao1121/article/details/81865211