BeautifulSoup解析工具与css选择器使用简介 - 代码天地

BeautifulSoup解析工具与css选择器使用简介

其他 2018-06-18 09:51:41 阅读次数: 2

# coding:utf-8

import requests
from lxml import etree
from bs4 import BeautifulSoup
import chardet
BASE_DOMAIN = "http://www.ygdy8.net"
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
}


def get_detailed_urls(url):
    # 1.获取网页信息
    response = requests.get(url, headers=HEADERS)
    # 查看网页后发现，编码方式为“gb2312”charset
    encode_style = chardet.detect(response.content)["encoding"]
    # text = response.content.decode(encode_style, "ignore")
    text = response.content.decode("gbk", "ignore")

    # 2.对获取的text进行解析,解析成元素
    soup = BeautifulSoup(text, "lxml")

    # 2.1获取所有"a"标签
    # trs = soup.select("tr")
    # for tr in trs:
    #     print tr

    # 2.2获取第2个"a"标签
    # trs = soup.select("tr")[1]
    # print trs

    # 2.3获取class为even的标签
    # trs = soup.select("table.tbspan")
    # for tr in trs:
    #     print tr

    # 2.4获取所有a标签的herf属性
    # trs = soup.select("a")
    # for tr in trs:
    #     print tr["href"]

    # 2.5获取所有的职位信息（text文本）
    trs = soup.select("tr")
    for tr in trs:
        infos=list(tr.stripped_strings)
        print infos


def spider():
    # 1.获取第二页详细url
    # url = "http://www.ygdy8.net/html/gndy/dyzz/index.html"
    base_url = "http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html"
    for i in range(1, 8):
        url = base_url.format(i)
        get_detailed_urls(url)
        break


if __name__ == '__main__':
    spider()

猜你喜欢

转载自blog.csdn.net/qq_42281053/article/details/80692351

BeautifulSoup解析工具与css选择器使用简介

css选择器使用

BeautifulSoup解析（CSS选择器）

css-选择器使用详解

CSS属性选择器使用

史上最全的BeautifulSoup解析（基本选择器，标准选择器，css选择器）

爬虫之CSS选择器的使用(BeautifulSoup)

网络爬虫中CSS选择器的使用（BeautifulSoup）

xpath和css及BeautifulSoup选择器的使用

css3选择器使用总结

beautifulsoup之CSS选择器

CSS 选择器：BeautifulSoup4

BeautifulSoup之Css样式选择器

CSS元素选择器、关系选择器、属性选择器、伪类选择器、伪对象选择器使用参考

CSS(简介or选择器)

CSS3--简介及选择器的使用

父子选择器及选择器使用技巧

android的selector背景选择器使用

jquery及jquery常用选择器使用

jquery 选择器使用总结

jquery选择器使用案例

jQuery标签选择器使用

操作名称选择器使用

操作方法选择器使用

Layui——颜色选择器使用

最容易理解的选择器使用

简单前端知识——jQuery的选择器使用案例和CSS文件的引用——04

Python爬虫包 BeautifulSoup 之 CSS 选择器

Python-- CSS 选择器：BeautifulSoup4

beautifulSoup库中的css选择器介绍

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)