一个简单的爬取一个电影网的磁力链接 - 代码天地

一个简单的爬取一个电影网的磁力链接

其他 2018-08-19 22:13:59 阅读次数: 0

import requests
from lxml import etree
from urllib import parse
import re


#定义一个函数
def ygdy(baseurl):
    headers ={
        'Cookie' : 'cscpvcouplet4298_fidx=1; cscpvrich5041_fidx=1',
        'Referer' : 'http://dytt8.net/',
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',

    }
    response = requests.get(baseurl,headers=headers)
    #根据网上的编码转换
    response.encoding = 'gb2312'
    dy_ele = etree.HTML(response.text)
    # with open('dytt.html','wb') as f:
    #     f.write(response.content)

    # print(dy_ele)
    #定位数据
    dy_ele_table = dy_ele.xpath('//div[@class="co_content8"]/ul/td/table')
    # print(dy_ele_table)

    for table in dy_ele_table:
        # print(table)
        try:
            #获取详情路由以及文件名
            dy_a_href = table.xpath('./tr[2]/td[2]/b/a/@href')[0]
            dy_a_filename = table.xpath('./tr[2]/td[2]/b/a')[0].text
            print(dy_a_filename)
            # print(dy_a_href)
            #路径拼接
            info_url = parse.urljoin(baseurl,dy_a_href)
            response = requests.get(info_url,headers=headers)
            #转换成网站的编码
            response.encoding = 'gb2312'
            info_text = response.text
            #用正则查找自己需要的链接
            p = r'<a href="(.*)"><stro'
            res_cl = re.search(p,info_text)
            print(res_cl.group(1))

            info_dy = etree.HTML(response.text)
            #用xpath找到另一个链接
            info_lj = info_dy.xpath('//td[@style="WORD-WRAP: break-word"]/a/@href')[0]
            print(info_lj)
            #保存链接
            with open('阳光电影.txt','ab')as f:
                f.write(dy_a_filename.encode('utf-8')+'磁力链接:'.encode('utf-8')+res_cl.group(1).encode('utf-8')+'另一个链接:'.encode('utf-8')+info_lj.encode('utf-8')+'\r\n'.encode('utf-8'))
        except:
            print('dy_a_filename'+'no!')
#函数的调试
if __name__ == '__main__':
    for i in range(1,178):
        baseurl = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_%s.html'%i
        ygdy(baseurl)

猜你喜欢

转载自blog.csdn.net/yangbenhao/article/details/81842162

一个简单的爬取一个电影网的磁力链接

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

制作一个简单HTML电影网页设计（HTML+CSS）

一个简单的爬虫：爬取豆瓣的热门电影的信息

简单爬取一个影院单个页面的所有电影名称

一个简单Python爬虫实例（爬取的是前程无忧网的部分招聘信息）

【转】写一个简单的爬虫来批量爬取新浪网的新闻

python简单爬取一个blogs内容

一个简单的恋家的信息爬取

python 一个简单的爬取程序

python之简单爬取一个网站信息

一个简单的蟒蛇爬取知乎

爬虫：一个简单的数据爬取统计实例

flask学习：开发一个微电影网站一：项目介绍

flask学习：开发一个微电影网站二：蓝图构建, 会员登录

新手小白搭建一个电影网站详细教程

小菜鸟的第一个爬虫：豆瓣爬取电影信息

爬取4567电影网

python简单爬虫爬取80s电影网所有电影

制作一个简单HTML个人网页网页（HTML+CSS）大话西游之大圣娶亲电影网页设计

python 爬取网站获得一个网站的所有链接

爬虫用java实现一个简易爬取网页超链接的程序

跟我一起从零开始一个预告片电影网站（二）

利用宝塔linux面板+苹果CMS-----从0搭建一个电影网站(一)

爬取猫眼电影网前100的电影排名

Pytho爬虫-4567电影网电影信息爬取

写一个爬取中国天气网的终端版天气预报爬虫

很简单的一个爬取豆瓣音乐前250的一些信息。

python爬取一个网站（一)--------下载html

我的第一个python爬虫：爬取豆瓣top250前100部电影

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)