#课后小结 #“爬虫”开始爬不动了,看不懂啊 # 一爬虫原理 # 1.什么是互联网? # 指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。 # 2.互联网建立的目的? # 互联网建立的目的是为了数据的传递以及数据的共享, # 3..上网的全过程: # 一普通用户: # 打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中 # -爬虫程序: # 模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中 # 4. .上网的全过程: # 一普通用户: # 打开浏览器一>往目标站点发送请求一>获取响应数据一>渲染到浏览器中 # -爬虫程序: # 模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中 # 5.浏览器发送的是什么请求? # http协议的请求。 # -客户端: # 浏览器是一个软件->客户端的IP和端口 # 一服务端 # https : / /www. jd. com/ # www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口 # 客户端的ip和端口- - - >服务端的 IP和端口发送请求可以建 立链接获取相应数据 。 # 6.爬虫的全过程 # 发送请求 # 获取响应数据 (只要往服务器发送请求,请求通过后会返回响应数据)-解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath...)-保存到本地 # (文件处理、数据库、MongoDB存储库) # import requests # response = requests.get(url='http://www.baidu.com/') # response.encoding = 'utf-8' # print(response.text) # with open('baidu.html', 'w', encoding='utf-8')as f: # f.write(response.text) # import requests # response = requests.get('https://video.pearvideo.com/head/20190625/cont-1570107-14056273.mp4') # print(response.content) # with open('视频.mp4', 'wb')as f: # f.write(response.content) import requests import re response = requests.get('https://www.pearvideo.com/') print(response.text) res_list=re.findall('<a href="video_(.*?)"',response.text,re.S) print(res_list) for v_id in res_list: detail_url='https://www.pearvideo.com/video'+v_id print(detail_url)
Python实训三
猜你喜欢
转载自www.cnblogs.com/ys88/p/11094735.html
今日推荐
周排行