老男孩爬虫实战密训课第一季，2018.6，初识爬虫训练-实战1 - 代码天地

老男孩爬虫实战密训课第一季，2018.6，初识爬虫训练-实战1

其他 2019-05-29 22:11:39 阅读次数: 0

1.爬虫介绍

　　编写程序，根据URL获取网站信息

2.用到的库

　　requests库

　　bs4库

3.内容及步骤

4.代码

import requests
import os
from bs4 import BeautifulSoup

# 1.下载页面
ret = requests.get(url='https://www.autohome.com.cn/news/')
ret.encoding = ret.apparent_encoding
# print(ret.text)  爬取的内容

# 2.解析：获取想要的指定内容beautifulsoup
soup = BeautifulSoup(ret.text,'html.parser')#lxml
div = soup.find(name='div',id='auto-channel-lazyload-article')
li_list=div.find_all(name = 'li')

# 更改下载地址
os.mkdir("图片")
os.chdir("图片")
for li in li_list:

    # 获取新闻标题
    h3 = li.find(name = 'h3')
    if not h3:
        continue

    # 获取新闻内容
    p = li.find(name = 'p')

    # 获取链接地址
    a = li.find(name = 'a')

    # print(a.attrs)获取属性
    print(h3.text,
          a.get('href'),
          p.text
          )
    print('='*15)
    
    # 获取图片链接并下载
    img = li.find('img')
    src = img.get('src')

    # 根据__分割，得到列表
    file_nane = src.rsplit('__',maxsplit=1)[1]

    ret_img = requests.get(
        url='https:'+src
    )
    with open(file_nane,'wb') as f:
        f.write(ret_img.content)

　　

find的扩展：

　　可以用：

　　　　1.id，_class

　　　　2.attrs方式

猜你喜欢

转载自www.cnblogs.com/yhstcxx/p/10946511.html

老男孩爬虫实战密训课第一季，2018.6，初识爬虫训练-实战1

老男孩爬虫实战密训课第一季，2018.6，初识爬虫训练-实战2-自动登陆抽屉网

大数据实战课程第一季Python基础和网络爬虫数据分析

开放原子训练营第一季——铜锁探“密” 圆满落幕！

开放原子训练营（第一季）铜锁探索国密及简单应用

老钱说图表第一季----散点图

零基础学HTML 5实战开发(第一季)

微信小程序入门到实战系列课程(第一季基础入门)

【第一季】【SpringBoot+Vue】前后端分离项目实战相关资料

路飞学成-Python爬虫实战密训-第1章

路飞学城—Python—爬虫实战密训班第一章

【2023 · CANN训练营第一季】昇腾AI入门课（TensorFlow）微认证考试

监狱风云第一季

工具清单------第一季

Java入门---第一季

学习笔记(23):一学即懂的计算机视觉（第一季）-图像变换实战演练

学习笔记(03):一学即懂的计算机视觉（第一季）-图像变换实战演练

学习笔记(02):一学即懂的计算机视觉（第一季）-图像变换实战演练

【重构版教程】uni-app实战第一季：社区交友类app视频教程

【老钱说图表第一季】---- 矩形树图

【老钱说图表第一季】----气泡图

【老钱说图表第一季】----雷达图

【老钱说图表第一季】----面积图

第一季天龙八部（老）

开放原子训练营（第一季）铜锁探密：基于铜锁，在前端对登录密码进行加密，实现隐私数据保密性

开放原子训练营（第一季）铜锁探密，SM3杂凑算法加强至pro版

【2023 · CANN训练营第一季】昇腾AI入门课（Pytorch)---昇腾AI入门课（PyTorch）微认证考试

慕课网JAVA入门第一季笔记（一）

慕课网Java入门第一季教程（一）Java初体验

【2023 · CANN训练营第一季】昇腾AI入门课（Pytorch）第一章昇腾AI基础知识介绍

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)