Python实训三

#课后小结
#“爬虫”开始爬不动了，看不懂啊
# 一爬虫原理
# 1.什么是互联网?
#    指的是由一堆网络设备，把一台台的计算机互联网到一起称之为互联网。
# 2.互联网建立的目的?
#    互联网建立的目的是为了数据的传递以及数据的共享,
# 3..上网的全过程:
#     一普通用户:
#     打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中
#     -爬虫程序:
#       模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中
# 4. .上网的全过程:
#       一普通用户:
#       打开浏览器一>往目标站点发送请求一>获取响应数据一>渲染到浏览器中
#       -爬虫程序:
#       模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中
# 5.浏览器发送的是什么请求?
#       http协议的请求。
#       -客户端:
#       浏览器是一个软件->客户端的IP和端口
#       一服务端
#       https : / /www. jd. com/
#       www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口
#       客户端的ip和端口- - - >服务端的 IP和端口发送请求可以建 立链接获取相应数据 。
# 6.爬虫的全过程
#       发送请求
#       获取响应数据  (只要往服务器发送请求，请求通过后会返回响应数据)-解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath...)-保存到本地
#       (文件处理、数据库、MongoDB存储库)
# import requests
# response = requests.get(url='http://www.baidu.com/')
# response.encoding = 'utf-8'
# print(response.text)
# with open('baidu.html', 'w', encoding='utf-8')as f:
#       f.write(response.text)
# import requests
# response = requests.get('https://video.pearvideo.com/head/20190625/cont-1570107-14056273.mp4')
# print(response.content)
# with open('视频.mp4', 'wb')as f:
#       f.write(response.content)
import requests
import re
response = requests.get('https://www.pearvideo.com/')
print(response.text)
res_list=re.findall('<a href="video_(.*?)"',response.text,re.S)
print(res_list)
for v_id in res_list:
      detail_url='https://www.pearvideo.com/video'+v_id
      print(detail_url)
猜你喜欢