Python爬取豆瓣电影:《肖申克的救赎》 - 代码天地

Python爬取豆瓣电影:《肖申克的救赎》

编程语言 2019-03-16 10:10:54 阅读次数: 0

本文的思路是按照BeautifulSoup4文档(链接地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/index.html)写的.

爬取网址:https://movie.douban.com/subject/1292052/

1,获得网址源码(可以利用网站的查看元素直接查看):

import requests
from bs4 import BeautifulSoup
import re
import numpy as np
import csv
import time

url = 'https://movie.douban.com/subject/1292052/'
data = requests.get(url).text

print(data)

2,获得电影名（知识点对应文档中 对象种类 ）:

本段代码目的:获取title标签及其内容

import requests
from bs4 import BeautifulSoup
import re
import numpy as np
import csv
import time

url = 'https://movie.douban.com/subject/1292052/'
data = requests.get(url).text
soup=BeautifulSoup(data,'lxml')
title1=soup.title

print(title1)

结果比预期多了一对<title>，我们要去掉他们，要利用get_text()方法

所以赋值title1那行改为:

title1=soup.title.get_text(strip=True)
#get_text()  获取标签的内容
#strip=True   去掉换行和空格

3,获取影片信息:

import requests
from bs4 import BeautifulSoup
import re
import numpy as np
import csv
import time

url = 'https://movie.douban.com/subject/1292052/'
data = requests.get(url).text
soup=BeautifulSoup(data,'lxml')
title2=soup.select("#info")[0].text

print(title2)

select() 取得属性为id=info的标签的所有内容(class用.匹配,id用#匹配)

select用[0].text提取文本内容

findall用get_text()提取文本内容

猜你喜欢

转载自blog.csdn.net/qq_41755143/article/details/88591915

Python爬取豆瓣电影:《肖申克的救赎》

python下载《申肖克的救赎》 —— 记一次心路历程

肖申克的救赎

《肖申克的救赎》

Python爬取豆瓣电影

再读《肖申克的救赎》

Python 爬取豆瓣

python 爬取豆瓣电影案例

python爬虫，爬取豆瓣电影信息

python爬虫实践——爬取豆瓣电影

python爬虫爬取豆瓣电影信息

Python爬取豆瓣电影top

使用Python 爬取豆瓣热门电影

Python爬虫--爬取豆瓣电影

爬取豆瓣电影

豆瓣电影爬取

《肖申克的救赎》观后感

对于《肖申克的救赎》的个人感悟

Python爬取豆瓣影评

Python 豆瓣mv爬取

python爬取豆瓣250

python爬取豆瓣图片

Python爬取豆瓣读书

python爬取猫眼电影

python爬取电影并下载

Python爬取电影天堂

Python爬取电影信息

Python爬虫入门 | 2 爬取豆瓣电影信息

Python爬虫之爬取豆瓣电影（一）

爬取豆瓣电影top250（python3）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)