路飞学成-Python爬虫实战密训-第1章 - 代码天地

路飞学成-Python爬虫实战密训-第1章

其他 2018-07-05 21:55:15 阅读次数: 0

1，本节学习体会、心得：

　　经过几个月的努力学完了django。因此才选择了这个爬虫课程。经过第一章的学习，再次体会到了python的强大。之前一直为正则发愁，每次都要修改好几次，才能匹配到。严重影响效率。然而，在这节中学到了新的技能 beautifulsoup4模块。用起来太爽了，简直就像是在写jquery 。大大提高了匹配的效率。

武老师讲的非常通俗易懂，但是如果只听的话，过后就忘了。在去写已经学过的代码，仍然不知道怎么写。但是照着笔记，举一反三的去爬取几个站之后。再来写的话就可以抛弃笔记了。哈哈，也算是一点小心得了。

2，本节的知识点总结:

　　一、爬虫入门

　　安装requests模块：pip3 install requests

　　安装bs4 模块：pip3 install beautifulstoup4

　　导入request模块： import requests

　　导入bs4模块：from bst import BeautifulSoup 　　　

 1 import requests
 2 from  bst import BeautifulSoup
 3 
 4 # 通过get方式获取要爬取的页面的内容 
 5 ret = requests.get(url='https://www.autohome.com.cn/news/')
 6 
 7 # 给获取到的内容设置编码  （apparent_encoding 获取当前内容的编码）
 8 ret.encoding = ret.apparent_encoding
 9 　
10 # 用beautifulsoup模块解析 获取到的内容
11 soup = ret.Beautifulsoup(ret.text,'html.parser')  #html.parser 是解析的方式
12 　
13 # find 找第一个对象  find_all 找到所有的对象 返回一个对象列表
14 div = soup.find(name='div',id="auto-channel-lazyload-article")
15 
16 # 获取所有的li标签对象 find_all
17 list = div.find_all(name='li')
18 #遍历list对象列表 打印出每个li下的h3标签里的内容 a标签的href属性值  p标签的内容
19 for i in list:
20 　　h3 = i.find(name='h3')
21 　　a = i.find(name='a')
22 　　try:  #由于h3的可能会是空 print会报错 这里可以用if判断跳出循环 这里我用try不让它报错
23 　　　　print(h3.text,a.get('href'))
24 　　　　print(i.find('p').text)
25 　　except:
26 　　　　pass  
27

入门知识到此结束

----------- end  --------------

　　

　　

　　

　　

猜你喜欢

转载自www.cnblogs.com/iamdi/p/9270620.html

路飞学成-Python爬虫实战密训-第1章

路飞学成-Python爬虫实战密训-第2章

路飞学成-Python爬虫实战密训-第3章

路飞学城—python爬虫实战密训-—第1章（作业）

路飞学院-Python爬虫实战密训班-第1章

路飞学城-Python爬虫实战密训-第1章

路飞学城—python爬虫实战密训-—第1章

路飞学城-Python爬虫实战密训-第3章

路飞学院-Python爬虫实战密训班-第2章

路飞学城-——Python爬虫实战密训-——第2章

路飞学城-Python爬虫实战密训-第2章

路飞学院-Python爬虫实战密训班-第3章

路飞学城—Python—爬虫实战密训班第二章

路飞学城—Python—爬虫实战密训班第三章

路飞学城—Python—爬虫实战密训班第一章

路飞学城—Python爬虫实战密训班第三章

路飞学城-python爬虫密训-第一章

路飞学城-python爬虫密训-第二章

路飞学城-python爬虫密训-第三章

路飞学城-Python爬虫集训-第1章

路飞学城-python开发集训-第1章

路飞学城－Python开发集训_第1章

老男孩爬虫实战密训课第一季，2018.6，初识爬虫训练-实战1

Python3网络爬虫开发实战——第1章开发环境

路飞学城-Python爬虫集训-第二章

Python网络爬虫第1章Python基础

路飞学城-Python开发集训-第2章

路飞学城-Python开发集训-第4章

路飞学城-Python开发集训-第3章

路飞学城-Python开发集训-第5章

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)