爬虫初识(爬取dytt电影列表及下载地址) - 代码天地

爬虫初识(爬取dytt电影列表及下载地址)

其他 2018-10-12 20:06:58 阅读次数: 0

import re
from  urllib.request import urlopen
def getPage(url):
    response=urlopen(url)
    return response.read().decode('gbk',errors='ignore')
def parsePage(s):
    com=re.compile(r'<td height="26">.*?<b>.*?<a href="(?P<url_name>.*?)" class="ulink">.*?',re.S)
    ret=com.finditer(s)
    for i  in  ret :
        return "http://www.dytt8.net"+i.group("url_name")
def parsePage1(s):
    com=re.compile(r'<div id="Zoom">.*?译.*?名(?P<name>.*?)<br />◎片.*?名(?P<pianname>.*?)<br />.*?◎导.*?演(?P<daoyan>.*?)<br />'+
'◎主.*?演(?P<zhuyan>.*?)<br /><br />◎简.*?介.*?<td.*?><a href="(?P<xiazaidizhi>.*?)">',re.S)
    ret1=com.finditer(s)
    # print('****************************************************************')
    for i  in  ret1 :
        yield {"yiming":(re.sub("[\u3000]", "",i.group('name'))),
                "pianming":re.sub("[\u3000]", "",i.group("pianname")),
                "daoyan":re.sub("[\u3000]", "",i.group("daoyan")),
                "zhuyan":re.sub("[\u3000]", "",i.group("zhuyan")),
                "xiazaidizhi":re.sub("[\u3000]", "",i.group("xiazaidizhi"))}
def main(num):
    url="http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html" % num
    response_html=getPage(url)
    xiangqing=parsePage(response_html)
    response1_html = getPage(xiangqing)
    ret=parsePage1(response1_html)
    f = open("move_list", "a", encoding="utf8")
    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
for i in range(1,181):
    main(i)

猜你喜欢

转载自www.cnblogs.com/zhoushibin-1/p/9780285.html

爬虫初识(爬取dytt电影列表及下载地址)

httpclient爬虫爬取电影信息和下载地址实例（编码格式转化）

java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址

爬虫学习（一）---爬取电影天堂下载链接

爬虫，爬取猫眼电影

爬虫爬取电影天堂电影链接

python爬取电影并下载

dytt 爬取磁力链接保存mysql

scrapy入门小案例--爬取电影天堂最新电影下载地址

python爬虫，爬取豆瓣电影信息

Python爬虫爬取猫眼电影排行

python爬虫爬取猫眼电影数据

[python爬虫]爬取电影天堂连接

爬虫之爬取豆瓣电影的名字

Python爬虫：爬取网站电影信息

python爬虫实践——爬取豆瓣电影

简单爬虫爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

python爬虫实现爬取电影信息

爬虫爬取豆瓣高分电影信息

爬虫之爬取电影天堂（request）

[Python爬虫]猫眼电影榜单爬取

用java编写爬虫爬取电影

Scrapy爬虫爬取电影天堂

爬虫爬取猫眼电影排行

Python爬虫--爬取豆瓣电影

使用爬虫爬取热门电影

爬取《电影天堂》，保存评分大于7.0 的电影地址

爬取电影天堂电影列表和详情页

爬虫实践--豆瓣电影当前上映电影信息爬取

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)