美女视频真不错,于是我用python采集了下来~

前言

嗨喽!大家好呀,这里是魔王~**
image.png
源码、解答、资料可看我左侧主页领取~

知识点:

  • 动态数据抓包
  • 动态页面分析
  • requests携带参数发送请求
  • json数据解析

开发环境:

  1. python 3.8
    运行代码
  2. pycharm 2021.2
    辅助敲代码
  3. requests
    第三方模块

代码实现 python

  1. 发送请求
  2. 获取数据
  3. 解析数据
  4. 保存数据

image.png

代码

因部分原因,headers里的一些部分被删了,你们可以自己去复制

import requests     # 发送请求 第三方模块(第三方应用 pip)
import re


# 伪装
# 1. 选中要替换的代码
# 2. ctrl + R
# 3. 第一个框(.*?): (.*)
# 4. 在第二个框里面输入 '$1': '$2',
# 5. 点击全部替换(* 点亮 *)
headers = {
    
    
    'content-type': 'application/json',
    'Cookie': 'kpf=PC_WEB; kpn=KUAISHOU_VISION; clientid=3; did=web_ea128125517a46bd491ae9ccb255e242; client_key=65890b29; didv=1646739254078; userId=270932146; kuaishou.server.web_st=ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqABctRgGaXi5efEBpnbdtJMp3nnnXqENRWBoFQABtOr1ZFUNAjEo5NTZ4F0leSypsSFE4_-FGTnBqKEYh8Wcrszm3FGF03559Z9bFQCX_8ew_kLKPWVB9ZRlWQgISoG4-XZXIOqiBgkQKsPbpYKiA3X4_0rMDbo9-c0nWXeOoThekj8W3u7_yfI4fUY3h5WgTEDYT0yrXkZmhWlFV_jpVxDrBoSzFZBnBL4suA5hQVn0dPKLsMxIiCo1i0bY9V6-OVEk7yMnH86RNliTZACHvLPjL9FTHHQOigFMAE; kuaishou.server.web_ph=09735672944cbf9e53431bf3e0514a0d058b',
    'Host': '',
    'Origin': '完整代码可加Q裙:926207505',
    # 防盗链
    'Referer': '',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36',
}
url = ''


def get_page(pcursor):
    # 指定要谁的视频
    data = {
    
    
        "operationName": "visionProfilePhotoList",
        "query": "query visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {\n  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      type\n      author {\n        id\n        name\n        following\n        headerUrl\n        headerUrls {\n          cdn\n          url\n          __typename\n        }\n        __typename\n      }\n      tags {\n        type\n        name\n        __typename\n      }\n      photo {\n        id\n        duration\n        caption\n        likeCount\n        realLikeCount\n        coverUrl\n        coverUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrl\n        liked\n        timestamp\n        expTag\n        animatedCoverUrl\n        stereoType\n        videoRatio\n        profileUserTopPhoto\n        __typename\n      }\n      canAddComment\n      currentPcursor\n      llsid\n      status\n      __typename\n    }\n    hostName\n    pcursor\n    __typename\n  }\n}\n",
        "variables": {
    
    "userId": "3x2vsxyxbbwcjta", "pcursor": pcursor, "page": "profile"}
    }
    # 1. 发送请求  get  post
    response = requests.post(url=url, headers=headers, json=data)
    # <Response [200]>: 请求成功
    # 2. 获取数据 .json() 返回字典类型数据
    # .text: 拿到的就是 文本内容 python数据类型 字符串 > 字典类型 > 键值对(拼音)方式取值
    json_data = response.json()
    # 3. 解析数据
    # 新华字典 = {
    
    'A': '啊', 'B': '不', 'C': '从'}
    # 新华字典['B']  python数据容器 存储数据
    # 正则
    feeds = json_data['data']['visionProfilePhotoList']['feeds']
    pcursor = json_data['data']['visionProfilePhotoList']['pcursor']
    for feed in feeds:
        photoUrl = feed['photo']['photoUrl']
        caption = feed['photo']['caption']
        # 正则替换
        # 第一个参数里面是需要替换的一些字符
        # 第二个参数 是把这些字符替换为 空
        # 第三个参数 是需要替换的变量
        # \\ : \
        # \/ : /
        caption = re.sub('[\\\/:*?"<>|\n]', '', caption)
        print(caption, photoUrl)
        # 4. 保存数据  如果你们拿到的链接 就是 视频 或者 音频 或者 图片
        # .content: 获取视频(音频 / 图片) 二进制数据
        video_data = requests.get(photoUrl).content
        # 视频名称
        # wb 以二进制覆盖写入
        with open(f'video/{
    
    caption}.mp4', mode='wb') as f:
            f.write(video_data)
    # 递归: 2.出口
    if pcursor == "no_more":
        # 退出?
        return
    # 递归: 1.自己调用自己
    get_page(pcursor)

get_page("")

尾语

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/python56123/article/details/124475412