Python爬取电影信息 - 代码天地

Python爬取电影信息

其他 2019-01-29 21:06:32 阅读次数: 0

版权声明：未经允许不得转载 https://blog.csdn.net/qq_42952437/article/details/85528042

from bs4 import BeautifulSoup
import re
import requests
from selenium import webdriver
import time

for i in range(1, 4):#爬去第一页到第三页的信息
    firefox = webdriver.Firefox()
    firefox.get('http://vip.1905.com/list/t_1/p%so6.shtml' % i)
    time.sleep(10)
    html = firefox.page_source
    firefox.quit()


    soup = BeautifulSoup(html, 'lxml')

    for soups in soup.find_all(class_='borderBox'):
        for scores in soups.find_all(class_='fr score'):
            for score in scores:
                print("得分:", score)
        for titles in soups.find_all(class_='name'):
            for title in titles:
                print("剧名:", title)
        for years in soups.find_all(class_='hidden year'):
            for year in years:
                print("时间:", year)
        for zhu_actors in soups.find_all(class_="hidden actor"):
            for zhu_actor in zhu_actors:
                print("主演:", zhu_actor)
        for pages in soups.find_all(class_='hidden descr'):
            for page in pages:
                print("简介:", page)
        for urls in soups.find_all(class_='hidden url'):
            for url in urls:
                print("网址:", url)


        with open('file1.txt', 'a+', encoding='utf-8')as f:
            f.write("得分："+score+'\n'+"标题："+title+'\n'+"时间："+year+'\n' +
                    "主演：" +zhu_actor+'\n'+"简介："+page+'\n'+"网址："+url+'\n')
            f.write('='*50+'\n')
    patter = re.compile('<img.*?data-lazysrc="(.*?)".*?lazyImg.*?.*?>')
    imgs = re.findall(patter, html)
    print(imgs)
    for img in imgs:
        url = 'http:' + img
        print(img)
        tupian = img.split('/')[-1]
        res = requests.get(url)
        with open('D:\爬虫\Video' + '\\' + tupian, 'ab')as f:
            f.write(res.content)

利用火狐浏览器模拟登录爬取源码！

猜你喜欢

转载自blog.csdn.net/qq_42952437/article/details/85528042

Python爬取电影信息

python爬虫，爬取豆瓣电影信息

python爬取猫眼电影信息

Python爬虫：爬取网站电影信息

python爬虫爬取豆瓣电影信息

python爬虫实现爬取电影信息

爬取豆瓣电影信息

Python爬虫入门 | 2 爬取豆瓣电影信息

python爬取豆瓣电影Top250的信息

python3爬虫 —— 爬取豆瓣电影信息

Python爬虫入门 | 爬取豆瓣电影信息

Python实现的爬取豆瓣电影信息功能案例

python爬虫——爬取豆瓣top250电影信息

python项目-爬取豆瓣top250电影信息

python爬取猫眼电影TOP100信息

Python爬取电影信息：Ajax介绍、爬取案例实战 + MongoDB存储

Python爬取豆瓣电影

python爬取猫眼电影

python爬取电影并下载

Python爬取电影天堂

python 爬取电影天堂电影

python 爬取电影天堂电影续编

python利用requests模块，实现爬取电影天堂最新电影信息。

python爬虫（一）爬取豆瓣电影排名前50名电影的信息

Python爬虫，4567电影网电影信息爬取，二级页面处理方案

python爬取猫眼电影TOP100榜并将电影信息写入到Excel

到豆瓣爬取电影信息

scrapy爬取豆瓣电影信息

简单爬虫爬取豆瓣电影信息

爬取豆瓣网电影的数据信息

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)