入门级爬虫抓取豆瓣top250 的电影信息 - 代码天地

入门级爬虫抓取豆瓣top250 的电影信息

其他 2019-03-25 13:20:59 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_23013309/article/details/59189533

import requests
import lxml.html
from bs4 import BeautifulSoup
import re
import bs4
from pymongo import MongoClient

def req(url, param):
    resp = requests.get(url, params=param).text
    return resp

def get_data(data):
    #得到你要抓取内容然块
    source_soup = BeautifulSoup(data, 'html.parser')
    data_ol = source_soup.ol
    films = []
    for tag_li in data_ol:
        if isinstance(tag_li, bs4.element.Tag):
            datas = lxml.html.fromstring(str(tag_li.contents))
            #得到电影名字
            names = []
            name1 = datas.xpath('//span[@class="title"]/text()')
            name2 = datas.xpath('//span[@class="other"]/text()')
            names.append(name1)
            names.append(name2)
            #得到电影导演及主演的信息
            info = datas.xpath('//p[@class=""]/text()')
            #得到电影的评分及评分人数
            star = datas.xpath('//span[@class="rating_num"]/text()')
            num = re.search('<span>(.*)</span>', str(data_ol.contents)).group(1)
            #得到电影的名句
            quote = datas.xpath('//span[@class="inq"]/text()')
            #将信息存入一个字典
            film_info = {
                'name': names,
                'info': info,
                'star': star,
                'num': num,
                'quote': quote
            }
            films.append(film_info)

    return films

cli = MongoClient('localhost', 27017)
db = cli.films
for i in range(1, 11):
    param = {
        'start': (i - 1) * 25,
        'filter': ""
    }
    url = 'https://movie.douban.com/top250'
    db.films2.insert(get_data(req(url, param)))
print("spider success")

使用bs4, lxml.html.xpath, requests
还请各位看客多多指教，

猜你喜欢

转载自blog.csdn.net/qq_23013309/article/details/59189533

入门级爬虫抓取豆瓣top250 的电影信息

python爬虫入门:豆瓣电影Top250抓取

爬虫脚本（抓取豆瓣电影Top250）

Python爬虫一：抓取豆瓣电影Top250

Python爬虫抓取豆瓣top250电影

python爬虫实战---豆瓣电影top250的电影信息抓取

Day 3【Datawhale】爬虫入门学习——实战一抓取豆瓣Top250电影信息

爬虫实战：爬取豆瓣TOP250电影信息

python爬虫——爬取豆瓣top250电影信息

【爬虫】爬取豆瓣Top250电影信息

爬虫_豆瓣电影top250

python爬虫——豆瓣电影Top250

豆瓣TOP250 电影爬虫

爬虫豆瓣TOP250电影数据

豆瓣电影top250（网络爬虫）

【python爬虫】—豆瓣电影Top250

Python爬虫1-利用Scrapy抓取豆瓣电影top250数据

Scrapy入门实例(使用Scrapy抓取豆瓣电影top250榜单）

豆瓣电影TOP250抓取

python爬虫入门 ✦ 爬取豆瓣电影Top250

python抓取豆瓣电影top250信息

使用Jsoup包抓取豆瓣Top250电影信息

python爬虫 —— 豆瓣电影top250电影

豆瓣电影TOP250和书籍TOP250爬虫

Python 爬虫实践-豆瓣电影Top250（待续）

Python爬虫获取豆瓣电影TOP250

（十七）Python爬虫：爬取豆瓣电影TOP250

R语言爬虫：豆瓣电影Top250（二）

R语言爬虫：豆瓣电影Top250（一）

【C语言爬虫】采集豆瓣电影top250

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)