爬虫的基本流程 - 代码天地

爬虫的基本流程

其他 2018-05-06 11:10:06 阅读次数: 4

1、把页面放入到BeautifulSoup容器当中

with open('D:/xxxxx/the_blah.html',
          'r')as web_data:

soup = BeautifulSoup(web_data, 'lxml')

2、获取页元素

images = soup.select('body > div.main-content > ul > li > img')
titles = soup.select('body > div.main-content > ul > li > h3 > a')
info = soup.select('body > div.main-content > ul > li > p')

3、筛选元素的具体信息

for image, title, info in zip(images, titles, infos):
    data = {
        'title': title.get_text(),  #获取标签的值
        'image': image.get('src'),   #获取标签中的属性
        'info': info.get_text()
    }

猜你喜欢

转载自www.cnblogs.com/onlyhold/p/8997594.html

爬虫的基本流程

python爬虫的基本流程

爬虫基本流程

Python爬虫基本流程

scrapy框架爬虫基本流程

Python爬虫工作基本流程

爬虫的基本分类和爬虫的流程

爬虫基本原理与实战---2、爬虫的基本流程

爬虫基本流程及简单爬取网页

Scrapy框架爬虫基本使用流程

scrapy爬虫教程摘要（一）——基本流程

爬虫的概念和基本流程基本了解（二）

爬虫的概念和基本流程基本了解（一）

网络爬虫基本原理(一) ：流程与策略

入门须知之网络爬虫的基本流程及抓取策略

01_爬虫的基本概念和流程

爬虫流程

爬虫的流程

网络爬虫技术是什么，网络爬虫的基本工作流程是什么？

【Python爬虫系列教程 2- 100】了解HTTP基本原理和爬虫的基本流程

爬虫的基本

爬虫的分类以及爬虫的流程

Python爬虫的基本流程是怎样的？技术实现是什么？带你简单入门一下爬虫

爬虫的原理（基本流程，Request与Response，怎么解决JavaScript渲染的问题，怎么保存数据）

scrapy爬虫框架 (1. Scrapy的基本介绍、使用流程、分组打印、pipelines（管道）使用）

一篇文章教会你Python网络爬虫程序的基本执行流程

scrapy爬虫编写流程

爬虫安装流程

爬虫 - scrapy执行流程

爬虫主要流程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)