0基础爬虫项目一：获取豆瓣电影排行列表 - 代码天地

0基础爬虫项目一：获取豆瓣电影排行列表

其他 2020-01-20 11:10:35 阅读次数: 0

import requests # 导入网页请求库
from bs4 import BeautifulSoup # 导入网页解析库
import json

class Doubantop(object):

    def __init__(self):
        self.baseurl = 'https://movie.douban.com/top250'
        self.result_list = []

    def start_requests(self, url):
        r = requests.get(url)
        return r.content

    def parse(self, text):
        soup = BeautifulSoup(text, 'html.parser')
        movie_list = soup.find_all('div', class_ = 'item')
        for movie in movie_list:
            mydict = {}
            mydict['title'] = movie.find('span', class_ = 'title').text
            mydict['score'] = movie.find('span', class_ = 'rating_num').text
            quote = movie.find('span', class_ = 'inq')
            mydict['quote'] = quote.text if quote else None 
            star = movie.find('div', class_ = 'star')
            mydict['comment_num'] = star.find_all('span')[-1].text[:-3]
            self.result_list.append(mydict)
        nextpage = soup.find('span', class_ = 'next').a
        if nextpage:
            nexturl = self.baseurl + nextpage['href']
            text = self.start_requests(nexturl)
            self.parse(text)

    def write_json(self, result):
        s = json.dumps(result, indent = 4, ensure_ascii=False)
        with open('movies.json', 'w', encoding = 'utf-8') as f:
            f.write(s)

    def start(self):
        text = self.start_requests(self.baseurl)
        self.parse(text)
        self.write_json(self.result_list)

douban = Doubantop()
douban.start()

返回jason数据文件：

发布了43 篇原创文章 · 获赞 80 · 访问量 8737

私信关注

猜你喜欢

转载自blog.csdn.net/qq_44717317/article/details/103019284

0基础爬虫项目一：获取豆瓣电影排行列表

简单的PHP爬虫，获取豆瓣正在热映电影列表

豆瓣电影(一)：网络爬虫

Python爬虫新手入门教学（一）：爬取豆瓣电影排行信息

【Python】从0开始写爬虫——豆瓣电影

豆瓣电影分类排行

豆瓣电影排行python爬虫实战（刚开始学习）

小白学 Python 爬虫（24）：2019 豆瓣电影排行

项目练习：电影列表爬虫

【Python】从0开始写爬虫——转身扒豆瓣电影

爬虫豆瓣电影

豆瓣电影爬虫+分析

豆瓣上映电影爬虫

豆瓣电影爬虫

python豆瓣电影爬虫

豆瓣电影爬虫练习

【爬虫】总结-豆瓣电影

初次用python写一个简单爬虫-获取电影天堂电影列表

Python爬虫获取豆瓣电影TOP250

获取豆瓣电影

【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫）

最简单的豆瓣电影排行爬虫萌新都可以看懂

Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

爬虫小项目（二）利用selenium爬取豆瓣电影

爬虫基础---简单使用（附带豆瓣电影top250）

python 获取豆瓣电影排行榜前250并写入excel

豆瓣电影排行榜爬取

爬取豆瓣电影排行版数据

Python爬虫之爬取豆瓣电影（一）

R语言爬虫：豆瓣电影Top250（一）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)