爬取豆瓣电影新片榜 - 代码天地

爬取豆瓣电影新片榜

其他 2020-04-04 15:45:18 阅读次数: 0

python爬虫 — 豆瓣电影新片榜

豆瓣电影新片榜

import requests
import csv
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from urllib3.exceptions import RequestError

def get_one_page(url):
    try:
        headers = {
           "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36 Edg/80.0.361.66"
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestError:
        return None

def parse_one_page(html):
    soup = BeautifulSoup(html, "html.parser")
    messages = soup.find_all("tr",class_="item")
    top10 = []
    for message in messages:
        top10.append(message.a['title'])
    return top10

def write_to_file(content):
    index = [1,2,3,4,5,6,7,8,9,10]
    #用pandas保存csv文件
    test = pd.DataFrame({"index":index,'top10':content})
    test.to_csv(r'Douban_top10_movie.csv',sep=',',encoding='utf-8-sig',index=False)
    #用csv保存csv文件
    """with open("Douban_top10_movie.csv", "w",newline='',encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(["index", "top10"])
        writer.writerows([index,content])"""

if __name__ =='__main__':
    html = get_one_page('https://movie.douban.com/chart')
    content = parse_one_page(html)
    write_to_file(content)

爬取结果：
在这里插入图片描述

发布了32 篇原创文章 · 获赞 14 · 访问量 1204

私信关注

猜你喜欢

转载自blog.csdn.net/qq_45770364/article/details/104946495

爬取豆瓣电影新片榜

豆瓣电影排行榜爬取

爬取豆瓣高分电影榜实例

爬取豆瓣电影排行榜前250

爬取豆瓣网电影排行榜

爬取豆瓣电影TOP250榜

利用BeautifulSoup爬取豆瓣高分电影排行榜

爬取豆瓣电影

豆瓣电影爬取

[笔记]R语言爬虫入门——豆瓣新片数据爬取

利用python爬取豆瓣电影榜top250的电影名及其对应网址

爬取豆瓣电影信息

scrapy爬取豆瓣电影

Python爬取豆瓣电影

爬取豆瓣高分电影

爬取豆瓣电影代码

爬取豆瓣电影的评论

【scrapy】scrapy爬取豆瓣电影排行榜并写入数据库

Python进阶实战 1.0 ：爬取豆瓣TOP250电影排行榜

爬取豆瓣电影剧情片排行榜

python爬取豆瓣排行榜电影数据(含GUI界面版)

基本文件处理-爬取豆瓣电影排行榜

Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

到豆瓣爬取电影信息

python 爬取豆瓣电影案例

scrapy爬取豆瓣电影信息

python爬虫，爬取豆瓣电影信息

scrapy爬取豆瓣电影教程

豆瓣电影---按分类爬取

Pyspider框架：爬取豆瓣电影

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)