关于爬虫_v1.0 - 代码天地

关于爬虫_v1.0

其他 2019-07-23 21:18:11 阅读次数: 0

感谢梁斌老师和茫羽行大哥梁老师的小象学院课程以及茫羽行OSCHINA的博客https://my.oschina.net/u/3914536

首先最重要的导入库

import requests
from bs4 import BeautifulSoup

然后是引入网址到url中

url='xxx.html'
url = 'http://www.air-level.com/air/' + city_pinyin

利用requests中的get函数得到网页内容，保存在自定义变量中比如r或者web_data

30秒内　　　　

wb_data=requests.get(url，timeout=30)

get可以夹带用户名和密码信息

#headers={'User-Agent':xxx,'Cookie':xxx}
#wb_data=requests.get(url,headers=headers)

#wb_data所保存的信息
'''
wb_data.text-网页的代码
wb_data.status_code-状态码
wb_data.url-请求url
wb_data.headers-头信息
wb_data.cookies-cookie信息
wb_data.content-字节流的形式
'''

然后利用BeautifulSoup解析，保存在soup变量中,记得加text来改变形式，解析方式为lxml

soup = BeautifulSoup(web_data.text,'lxml')

find如果直接找出来的是（）从头数第几个字符位置

如果没有class直接拿到中间内容，内容依照list的形式排列开来

soup = BeautifulSoup(r.text,'lxml')
td_list = soup.find_all('td')

对于想要某个div下重复的class 因为find和find_all拿到的是list，可以用索引来实现

比如：

city_div = soup.find_all('div',{'class': 'bottom'})[1]
#意义为：拿到div这个分割方式下class类下第二个bottom里面的内容

猜你喜欢

转载自www.cnblogs.com/EdedZhang/p/11234391.html

关于爬虫_v1.0

新浪微博爬虫v1.0

关于LINUX并行执行命令的V1.0

OxyPlot v1.0关于中文显示问题

关于ML.NET v1.0 RC的发布说明

关于Eclipse中的选择服务（SelectionService）V1.0

选课系统V1.0

MAVLink v1.0详解

Corda DemoBench for V1.0

C，日历V1.0。

GDScript：UIFramework V1.0

脱敏框架V1.0

关于网易云验证码V1.0版本的服务介绍

区块链游戏名录V1.0

ElasticSearch Java api 详解_V1.0

Java编码规范V1.0

Web Sign(WSign) v1.0 released

Impala V1.0安装之lzo

DBExportDoc V1.0 For MySQL 配置说明

新闻客户端v1.0

文本分类小结-V1.0

网页用户登录v1.0

Bootstrap fileinput v1.0（ssm版）

12306抢票V1.0

腾讯PHP开发规范v1.0

评选最牛群主v1.0

MySQL 源码分析 v1.0

微推助手 v1.0

汇编语言笔记v1.0

MySQL 相关规约（v1.0）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)