爬取豆瓣正在上映的电影名称及评分 - 代码天地

爬取豆瓣正在上映的电影名称及评分

其他 2018-08-17 16:24:24 阅读次数: 0

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: zty
import io
import sys
import requests
import re
from bs4 import BeautifulSoup
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')
myurl = 'https://movie.douban.com/cinema/nowplaying/beijing/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
req = requests.get(myurl, headers=headers)
mysoup = BeautifulSoup(req.text, 'lxml')
pt = mysoup.find_all('li', class_='list-item')
names = re.findall(r'data-title="(.*?)"', str(pt))      # 电影名称
scoresx = re.findall(r'(subject-rate|text-tip).*>(.*?)<', str(pt))  # 该正则表达式截取了(subject-rate|text-tip)这一部分，不知道怎么写不截取此部分的表达式
scores = []     # 电影评分
for scoresxx in scoresx:
    scores.append(scoresxx[1])  # 截取真正的评分
for i in range(0, len(scores)):
    print(names[i]+' '+scores[i]+'\n')
    with open('beijing.txt', 'a') as f:
     f.write(names[i]+' '+scores[i]+'\n')  # 保存文件的模式？使用w模式不行？原因？

遗留问题：

1、ulopen()和requests.get()的区别？

2、正确截取评分的正则表达式

3、文件模式问题

猜你喜欢

转载自www.cnblogs.com/dannvivian/p/9493890.html

爬取豆瓣正在上映的电影名称及评分

爬取豆瓣正在上映的电影

爬取豆瓣正在上映的影片信息

爬虫实践--豆瓣电影当前上映电影信息爬取

requests结合xpath爬取豆瓣最新上映电影

python爬虫03 —爬取静态页面（爬取豆瓣电影top250若干页的电影名称及评分）

爬取豆瓣的正在热映电影

爬取豆瓣电影评分前250部电影

豆瓣API获取数据，sarts组件，更改“正在上映”

爬取80s电影列表和豆瓣评分

使用python3 爬取豆瓣电影热映和即将上映

python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

Python爬取豆瓣Top250电影中2000年后上映的影片信息

Python爬取豆瓣网中即将上映的电影数据清单

爬虫实战(8)-爬取豆瓣网最近要上映的电影

爬取豆瓣电影

豆瓣电影爬取

爬取豆瓣Top250（电影名称并保存）

豆瓣上映电影爬虫

python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

用python爬取豆瓣电影TOP250获取电影排名、电影名称、电影别名、电影链接、导演、主演、年份、地点、类型、评分、评价人数、摘要、海报下载地址。

正在上映+即将上映

120行代码爬取豆瓣电影，附源码!就拿刚上映的复联4做例子！

爬取豆瓣电影信息

scrapy爬取豆瓣电影

Python爬取豆瓣电影

爬取豆瓣高分电影

爬取豆瓣电影代码

爬取豆瓣电影的评论

爬取豆瓣网页上的电影(包括图片，评分，和简介等）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)