day03 python基础

函数：
    其实是一把工具
    
使用函数的好处：
    1、解决代码冗余问题
    2、时代吗的结构更加清晰
    3、易管理
 
函数的使用必须遵循：
    先定义，后调用。

函数定义语法：
   
    def  函数名（参数一，参数二...）:
      '''注释： 声明函数'''
      逻辑代码

      return 返回值


    def: defind 定义
    函数名：必须看其名知其意
    ():接收外部传入参数
    注释：用来声明函数的作用
    return：返回给调用者的值

定义函数的三种形式：
    1、无参函数
         不需要接收外部传入的参数
    2、有参函数
         需要接收外部传入的参数
    3、空函数

          pass

#无参函数
def login():
   user = input('请输入用户名：').strip()
   pwd = input('请输入密码：').strip()

   if user == 'Yuan' and pwd == '222':
        print('login successful!')
   else:
        print('login error!')
#函数地址
print(login)
 
#函数调用
login()

#有参函数
#username,password 用来接收外部传入的值
def login(username,password):
   user = input('请输入用户名：').strip()
   pwd = input('请输入密码：').strip()
   
   if user == username and pwd ==password:
        print('login successful!')
   else:
        print('login error!')

#函数调用
#若函数在定义时需要接收参数，调用者必须为其穿传参
login('Yuan','222')
   

#空函数
'''
ATM:
    1、登录
    2、注册
    3、提现
    4、取款
    5、转账
    6、还款
'''
#登录功能
def login():
    #代表什么都不做
    pass
   
#注册功能
def register:
    #代表什么都不做
    pass

#还款功能
def repay():
    pass


函数的参数：
#在定义阶段：x，y称之为形参。
def func(x,y):
    print(x,y)

#在调用阶段：10，100称之为实参
 
def func(10,100)
    print(10,100)


位置参数：
   必须按照位置一一传参。
#在定义阶段：x，y称之为位置形参
def func(x,y):
    print(x,y)  
#在调用阶段：10，100称之为位置实参
 
def func(10,100)
    print(10,100)

关键字参数：
#在定义阶段：x，y称之为位置形参
def func(x=20,y=200):
    print(x,y)  
#在调用阶段：x=10，y=100称之为关键字参数，不能少传，也不能多传。
 
func(x=10,y=100)  

默认参数：
    在定义阶段，为参数设置默认值
  
def foo(x=10,y=200)
    print(x,y)
#不传参，则使用默认参数
foo()
#传参，使用传入的参数
foo(200,300)

函数的嵌套定义：
    在函数内部定义函数

函数对象：
    
函数的名称空间：
    内置：
        Python解析器自带的都称之为“内置名称空间”
    全局：
        所有顶着头写的变量，函数...都称之为“全名称空间”。
    局部：
        在函数内部定义的，都称之为“局部名称空间”。
    名称空间加载顺序：
        内置-->全局-->局部
    查找顺序：
        局部-->全局-->内置



函数嵌套定义：
  
def func1():
    print('from func1...')
    def func2():
        pritn('from func2...)
func1() 

#函数对象
print(func1)
def f1():
    pass
def f2():
    pass
dict1 = {'1':f1,'2':f2}
choice = input{'请选择功能编号：'}
if choice == '1':
    print(dic1[choice])
    dic1[choice]()

elif choice == '2':
   print(dic1(choice))
   dic1[choice]{}

#名称空间
#函数的嵌套定义
def func1():
    x=20
    print('from func1...')
    print(x)
    def func2():
        pritn('from func2...)

func1()
一、爬虫原理：
      1、什么是互联网？
           指的是由一堆网络设备，把一台台的计算机互联到一起，称之为互联网。

      2、互联网建立的目的？
           互联网建立的目的是为了数据的传递以及数据的共享。

      3、什么是数据？
           例如淘宝、京东商品基本信息。
           东方财富、雪球网的一些证卷投资信息。

      4、上网的全过程：
           普通用户：
               打开浏览器->向目标站点发送请求->获取响应数据->渲染到浏览器中
           爬虫用户：
               模拟浏览器->向目标站点发送请求->获取响应数据->提取有价值的数据->持久化到数据中
   
      5、浏览器发送的是什么请求？
            http协议的请求。

               客户端：
                   浏览器，是一个软件->客户端的IP和端口
               服务端：
                   https://www.baidu.com/
                   www.baidu->DNS解析->百度服务端IP和端口  发送请求可以可以建立链接获取相应数据

      6、爬虫的全过程
            -发送请求     （需要请求库：Requests请求，Selenium请求库）
            -获取响应数据     （只要向服务器发送请求，请求通过后返回数据）
            -解析并提取数据     （需要解析库：re、BeautifulSoup4、Xpath...）
            -保存到本地     （文件处理、数据库、MongoDB存储库）

二、Requests请求库：
    
      1、安装与使用

      2、基本使用

import requests  #导入rquests请求库
#向百度浏览器主页发送请求，获取响应对象
response = requests.get(url='https://www.baidu.com/')
#设置字符编码为 'utf-8'
response.encoding = 'utf-8'
#打印响应文本文字
print(response.txt)
#把响应文本写入本地
with open('baidu.html','w',encoding='utf-8') as f:
       f.write(response.txt)
#向视频源地址发送请求
response = requests.get('https://www.baidu.com/')
#打印二进制流，如图片、视频等数据
print(reponse.content)
#保存视频到本地
with open('视频.mp4'，‘wb’) as f:
     f.write(response.content)

1、先往梨视频主页发送请求
     https//www.pearvideo.com/
     解析获取所有的视频的ID：
        video_1570302
       
        re.findall()

2、获取视频详情页url:
        惊险！男子抢上地铁滑倒，就脚进去了
        https://www.pearvideo.com/video_1570302
        揭秘坎儿井
        https://www.pearvideo.com/video_1570107

import requests
import re #正确，用于解析文本数据
#1、先向梨视频主页发送请求
reponse = requests.get('https://www.pearvideo.com/')
#print(response.text)

#re正则匹配获取所有视频id
#参数一：正则匹配规则
#参数二：解析文本
#参数三：匹配模式


3、爬取视频
res_list = re.findall('<a href="video_(.*?)"',response.text,re.S)
#print(res_list)

#拼接每一个视频详情页url
for v_id in res_list:
    detail_url = 'https://www.pearvideo.com/video_'+v_id
   # print(detail_url)
   
   #对每一个视频详情页发送请求获取视频 频源url
    response = requests.get(url = detail_url)
   #解析并提取详情页视频url
   #视频url
    video_url = re.findall('srcUrl="(.*?)"',response.text,re.S)[0]
    print(video_url)
    
   #视频名称
    video_name = re.findall('<h1 class="video-tt">(.*?)</h1>',response.text,re.S)[0]
    print(video_name)
   #向视频url发送请求获取视频二进制流
    v_response = requests.get(video_url)

    with open('%s.mp4' % video_name,'wb') as f:
         f.write(v_response.content)
         print(video_name,'视频爬取完成')

4、抓包分析
     打开浏览器的开发者模式（检查）---->选中network
     找到访问的页面后缀  xxx.html（响应文本）
 
     （1）请求url（访问页面地址）
     （2）请求方式：
          GET:
             直接发送请求获取数据
             https://www.cnblogs.com/login
     （3）响应状态码：
          2xx: 成功
          3xx:重定向
          4xx:找不到资源
          5xx:服务器错误
     （4）请求头信息：
          User-Agent:用户带代理（证明是通过电脑设备及浏览器发送的请求）
          Cookies:登录用户真实信息（证明你是目标网站的用户）
          Referer:上一次访问的url（证明你是从目标网站跳转过来的）

     （5）请求体：
           POST请求才会有请求体
           From Data
           {
                  'user':'Yuan',
                  'pwd':'123'
            }



爬虫三部曲：
   1、发送请求
   def get_page(base_url):
         response = requests.get(base_url)
         return response
   2、解析文本
   def parse_index(text)
         res = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">
         #print(res)
         return res
   3、保存数据
   def save_data(data):
         with open('douban.txt','a',encoding='utf-8') as f:
             f.write(data)



   4、爬取豆瓣电影
        .：从当前位置开始
        *：查找所有
        ?：找到第一个就不找了
        .*?：非贪婪匹配
        .*：贪婪匹配
       （.*?）：提取括号内的数值
      
        电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介
        <div class="item">.*?<em class="">(.*?)</em>
        .*?<a href="(.*?)">.*?<span class="title">(.*?)</span>
        .*?导演:(.*?)</p>.*?<span class="rating num".*?>(.*?)</span>
        .*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>



if _name_ == '_main_':
    # num = 10
    # base_url = 'https://movie.douban.com/top250?start={}&filter='.foramt(num)
    num=0
    for line in range(10):
         base_url = f'https://movie.douban.com/top250?start={num}&filter='
         num +=25
         print(base_url)  
         #发送请求，调用函数
         response = get_page(base_url)
         #解析文本
         movie_list = parse_index(response.text)
         #保存数据
         #数据的格式化
         for movie in movie_list:
             #print(movie)
             #解压赋值
             #电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介
             v_top,v_url,v_name,v_daoyan,v_point,v_num,v_desc = movie
             # v_top = movie[0]
             # v_url = movie[1]
             movie_content = f'''
             电影名：{v_top}
             电影url:{v_uel}
             电影名称：{v_name}
             导演主演：{v_daoyan}
             电影评分：{v_point}
             评价人数：{v_num}
             电影简介：{v-desc}
             \n
             ,,,
             print(movie_content)
             #保存数据
             save_data(movie_content)
猜你喜欢