Python语言开发《简单网络爬虫实现》 - 代码天地

Python语言开发《简单网络爬虫实现》

其他 2020-02-07 10:03:06 阅读次数: 0

一、【基本专业术语】
网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。------维基百科

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。

【一般有两个步骤】：1.获取网页内容 2.对获得的网页内容进行处理
在这里插入图片描述
准备
Linux开发环境，python3.61安装方法请参考百度

安装一些必要的第三方库
其中requiests可以用来爬取网页内容，beautifulsoup4用来将爬取的网页内容分析处理
pip3 install requiests
pip3 install beautifulsoup4

二、【爬起】
使用request库中的get方法，请求url的网页内容
更多了解：http://docs.python-requests.org/en/master/
在这里插入图片描述

三、【编写代码】
[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py

#web爬虫学习 – 分析
#获取页面信息，更多了解：http://docs.python-requests.org/en/master/
#输入：url
#处理：request库函数获取页面信息，并将网页内容转换成为人能看懂的编码格式
#输出：爬取到的内容

import requests
def getHTMLText(url):
try:
r = requests.get( url, timeout=30 )
r.raise_for_status() #如果状态码不是200，产生异常
r.encoding = ‘utf-8’ #字符编码格式改成 utf-8
return r.text
except:
#异常处理
return " error "

url = “http://www.baidu.com”
print( getHTMLText(url) )

四、【运行效果如下】：
[root@localhost demo]# python3 demo.py
在这里插入图片描述

ChinaVico

发布了14 篇原创文章 · 获赞 21 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/wuyongmao/article/details/90483017

Python语言开发《简单网络爬虫实现》

Python语言开发《简单网络爬虫实现》

Python语言开发《简单网络爬虫实现》

【Python】简单网络爬虫实现

python简单实现网络爬虫

网络爬虫简单实现

python简单网络爬虫

Python开发简单爬虫

Python实现简单的爬虫

python 实现简单爬虫

python实现简单爬虫

Python 实现简单的爬虫

python实现网络爬虫

Java简单的网络爬虫实现

大数据python之简单的网络爬虫代码实现（单一与循环代码进行网络爬虫）

简单了解Python网络爬虫

网络爬虫简单介绍（python）

Python开发简单爬虫（持续）

Python--开发简单爬虫

实现简单的python爬虫功能

使用python实现简单爬虫

基于python爬虫的简单实现

关于python实现简单爬虫

【一】，python简单爬虫实现

python实现简单爬虫功能

python实现简单的爬虫功能

一、python网络爬虫的实现

【python实现网络爬虫（3）】最简单的网络爬虫（笑话大全网冷笑话标题爬取）

Golang 实现网络爬虫，简单易懂

java实现简单的网络爬虫+邮件推送

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)