python爬虫填坑 - 代码天地

python爬虫填坑

其他 2018-06-24 20:13:16 阅读次数: 2

正式开始填坑了。

昨天上了一上午的课，加上期末复习，每天的计划都要看情况减半。主要就看完，并实现理解了

Python爬虫（3）：爬取豆瓣电影TOP250

文章中用的应该是python2语言，自己用的是python3.6版本，中间运行的时候出现一些小问题，百度解决了，不一一详述，仅贴上代码。

# 爬取豆瓣电影TOP250
# coding:utf-8
import requests
from lxml import html

k = 1
# 请求网页内容
# 获取分页
for i in range(10):
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
    r = requests.get(url).content
    sel = html.fromstring(r)
    link=sel.xpath('//div[@class="info"]')

    # 提取信息
    for i in link:
        # 影片名称
        title = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]
        info = i.xpath('div[@class="bd"]/p[1]/text()')
        # 导演演员信息
        info_1 = info[0].replace(" ", "").replace("\n", "")
        # 上映日期
        date = info[1].replace(" ", "").replace("\n", "").split("/")[0]
        # 制片国家
        country = info[1].replace(" ", "").replace("\n", "").split("/")[1]
        # 影片类型
        geners = info[1].replace(" ", "").replace("\n", "").split("/")[2]
        # 评分
        rate = i.xpath('//span[@class="rating_num"]/text()')[0]
        # 评论人数
        comCount = i.xpath('//div[@class="star"]/span[4]/text()')[0]

        print("TOP%s" % str(k))
        print(title, info_1, rate, date, country, geners, comCount)

        # 保存文件
        with open("TOP250.txt", "a", encoding='utf-8') as f:
            f.write("TOP%s\n影片名称：%s\n评分：%s %s\n上映日期：%s\n上映国家：%s\n%s\n" % (k, title, rate, comCount, date, country, info_1 ))
            f.write("=========================================\n")

        k += 1

实验结果

猜你喜欢

转载自blog.csdn.net/jesmine_gu/article/details/80780769

python爬虫填坑

python scrapy爬虫代码及填坑

【Python爬虫】使用 tesserorc 进行图像的识别 ---- 填坑总结

python填坑（１）

python+spacy--------填坑

[填坑之作]python打包

python的填坑之作1

填坑填坑

[Python3填坑之旅]1、urllib模块网页爬虫访问中文网址出错

python函数参数的填坑之路

python填坑之路:tesserocr配置

python多进程填小坑

填坑之作-python实现SVD

python的匿名函数的坑（未填）

【04】python教程，占坑，之后填

[Swift]防爬虫测试文章（内容待填坑）9

[Swift]防爬虫测试文章（内容待填坑）10

[Swift]防爬虫测试文章（内容待填坑）6

[Swift]防爬虫测试文章（内容待填坑）7

[Swift]防爬虫测试文章（内容待填坑）8

[Swift]防爬虫测试文章（内容待填坑）2

[Swift]反爬虫，先占坑，内容后填1

[Swift]反爬虫，先占坑，内容后填10

[Swift]反爬虫，先占坑，内容后填7

[Swift]防爬虫测试文章（内容待填坑）4

[Swift]反爬虫，先占坑，内容后填3

[Swift]防爬虫测试文章（内容待填坑）3

[Swift]反爬虫，先占坑，内容后填9

[Swift]反爬虫，先占坑，内容后填2

[Swift]反爬虫，先占坑，内容后填8

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)