python根据标签爬取网页信息 - 代码天地

python根据标签爬取网页信息

其他 2018-05-08 05:20:35 阅读次数: 3

这里以豆瓣TOP250为案例，爬取网页信息

import requests#python HTTP客户端库，编写爬虫和测试服务器响应数据会用到的类库
import re
from bs4 import BeautifulSoup

print('正在从豆瓣电影TOP250爬取数据……')
# url网址 = 'https://movie.douban.com/top250?start=0'  (第一页)
for page in range(10):
    url = 'https://movie.douban.com/top250?start='+str(page*25)
    print('-----------正在爬取第'+str(page+1)+'页------')
    # 根据url网址获取网页源码
    html=requests.get(url)
    html.raise_for_status()
    try:
        # 解析 HTML源代码
        soup=BeautifulSoup(html.text, 'html.parser')
        # 使用正则 表达式将网页文本转换成字符串
        soup=str(soup)
        # 该函数根据包含正则表达式的字符串解析创建模式对象
        title=re.compile(r'<span class="title">(.*)</span>')
        names = re.findall(title,soup)
        for name in names:
            #剔除’/‘后面的英文名（英文名特征是含有’/‘）
            if name.find('/') == -1:
                print(name)
    except Exception as e:
        print(e)

print("爬取完毕")

猜你喜欢

转载自blog.csdn.net/super_sloppy/article/details/79273771

python根据标签爬取网页信息

python爬取网页信息

python爬虫爬取异步加载网页信息（python抓取网页中无法通过网页标签属性抓取的内容）

python爬取淘宝网页信息

Python使用BeautifulSoup爬取网页信息

Python动态爬取网页信息

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

python爬取网页

（79）--爬取网页信息

爬虫：python爬取糗事百科网页信息

Python3 爬取Ajax加载的网页信息

python：爬取贴吧的某个吧的网页信息

Python爬虫爬取动态JS网页股票信息

python爬虫lxml-4.5.0(爬取网页信息安装)

Python笔记：网页信息爬取简介（一）

python Selenium动态网页信息爬取

Ubuntu爬取网页信息(shell/python爬虫)

curl / python+selenium爬取网页信息

Python灰帽编程——网页信息爬取

python爬取华为应用商城app的标签信息

★ Python爬虫 - 爬取网页文字信息并保存（美文的爬取与存储）

python爬虫示例爬取网页信息，并且将爬取到的信息存入数据库。

python动态爬取网页

Python 爬虫爬取网页

Python爬取网页图片

Python爬取网页title

python 爬取静态网页

python爬取网页（简易）

【python】爬取网页图片

Python爬取网页内容

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)