python之简单爬取一个网站信息 - 代码天地

python之简单爬取一个网站信息

其他 2019-11-16 20:00:59 阅读次数: 0

requests库是一个简介且简单的处理HTTP请求的第三方库

get()是获取网页最常用的方式，其基本使用方式如下

使用requests库获取HTML页面并将其转换成字符串后，需要进一步解析HTML页面格式，这里我们常用的就是beautifulsoup4库，用于解析和处理HTML和XML

下面这段代码便是爬取百度的信息并简单输出百度的界面信息

import requests
from bs4 import BeautifulSoup

r=requests.get('http://www.baidu.com')
r.encoding=None
result=r.text
bs=BeautifulSoup(result,'html.parser')
print(bs.title)
print(bs.title.text)

import requests
from bs4 import BeautifulSoup

#用来解决乱码现象，所以编写爬取信息的代码最好带上（输出出现乱码或者UnicodeEncodeError：'gbk'codec can't encode character）  
import io      
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')


#用来防止反爬取，可以了解一下
headers={"User-Agent" : "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6)",
　　"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
　　"Accept-Language" : "en-us",
　　"Connection" : "keep-alive",
　　"Accept-Charset" : "GB2312,utf-8;q=0.7,*;q=0.7"
}


#获取51job网站的基本信息
r=requests.get('https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=')
r.encoding=r.apparent_encoding
result=r.text
bs=BeautifulSoup(result,'html.parser')
print(bs.prettify())

u1=bs.find_all('u1',attrs={'class':'item_con_list'})    #这部分代码便是我们爬取的目标，51job网站上关于python职业的薪资
print(len(u1))
li=bs.find_all('span',attrs={'class':'t4'})
for l in li:
    print(l.text)

上面这段代码便是爬取51job网站上的与python相关职业的薪资

猜你喜欢

转载自www.cnblogs.com/jackyfive/p/11872894.html

python之简单爬取一个网站信息

一个简单的恋家的信息爬取

python3.6+scrapy 1.5爬取网站一个简单实例

一个非常简单的爬取网站图片的Python爬虫实例

python爬取一个网站（一)--------下载html

一个简单Python爬虫实例（爬取的是前程无忧网的部分招聘信息）

python简单爬取一个blogs内容

python 一个简单的爬取程序

Python练习三:爬虫练习,从一个提供免费代理的网站中爬取IP地址信息

用Python实现一个爬虫爬取ZINC网站进行生物信息学数据分析

这是一个爬虫—爬取天眼查网站的企业信息

python 爬取网站获得一个网站的所有链接

很简单的一个爬取豆瓣音乐前250的一些信息。

php-Curl扩展一个简单示例-爬取新闻网站数据

python 爬虫之爬取网站信息并保存到文件

一个简单的爬虫：爬取豆瓣的热门电影的信息

python爬虫入门10分钟爬取一个网站

用Python爬取斗鱼网站的一个小案例

Python3--爬取数据之911网站信息爬取

一个免费ss网站的数据爬取过程

使用pycurl爬取一个特别的网站

第一个python爬虫示例——爬取天气信息

一个简单的爬取小说的python程序彻底搞懂Python的字符编码

一个爬取股票信息的爬虫程序

java程序员菜鸟进阶（八）分享一个爬取B2B网站信息的程序

Python爬虫：爬取网站电影信息

Python练习【爬取银行网站信息】

用Python构建一个简单的爬虫系统：爬取妹纸图片，建议收藏

一个简单的实例操作入门python爬虫--爬取漂亮小姐姐的图片

一个简单的蟒蛇爬取知乎

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)