从零开始的网络爬虫-01.简单的网络爬虫 - 代码天地

从零开始的网络爬虫-01.简单的网络爬虫

其他 2019-10-31 19:34:10 阅读次数: 0

总结

1.网络爬虫就是从网络上进行数据采集
2.常用的工具有urllib,beautifulsoup4
3.一些网站有反爬措施,需要加上headers后进行访问
4.beautifulsoup4可以将爬取到的信息转换为便于解析的对象

什么是网络爬虫

假设互联网是张蜘蛛网,我们需要了解这张网上有多少只蝴蝶(个人感觉fly更贴切,但太恶心了...).那么,我们的小蜘蛛就需要在这张网上进行巡逻,遇到蝴蝶,就收集起来,这种从网络上采集数据的行为就可以理解为网络爬虫.

网络爬虫的知识储备

为了捉到小蝴蝶,小蜘蛛在新手村里学习了Python,HTML,CSS,JavaScript以及简单的网络知识,村里的铁匠告诉小蜘蛛,在村子外围有小蝴蝶出没,于是,小蜘蛛出发了.

简单的网络爬虫

离开了新手村的小蜘蛛很快就发现了小蝴蝶的踪迹 butterfly_url

  butterfly_url = 'https://www.cnblogs.com/willow-blueness/p/11704560.html'

小蜘蛛迫不及待的取出了自己的精灵球 urlopen,嗷呜的一声就向小蝴蝶丢了过去

from urllib.request import urlopen

butterfly_catch = urlopen(butterfly_url)

print(butterfly_catch.read())

小蝴蝶也很聪明呀,看到小蜘蛛想不经过浏览器大大就非法捕获它,那哪能同意啊,抛出了"urllib.error.HTTPError: HTTP Error 403: Forbidden"的异常,就灵巧的躲开了.
于是,机灵的小蜘蛛就伪造了一份浏览器大大的手令:

catch_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"}

小蜘蛛再次抛出精灵球:

  from urllib.request import urlopen,Request

  butterfly_url = 'https://www.cnblogs.com/willow-blueness/p/11704560.html'

  catch_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"}

  butterfly_request = Request(butterfly_url,headers=catch_headers)

  print(urlopen(butterfly_request).read())

天真的小蝴蝶被捉住了...
本以为这个尴尬的故事到这里就结束了,可是小蜘蛛偏偏想知道小蝴蝶口袋里有几颗糖.于是,小蜘蛛就从铁匠那边学习了新的技能(引入新的python包):

pip install beautifulsoup4

掌握了新技能的小蜘蛛利用beautifulsoup开始探索小蝴蝶到底有几颗糖:

  from bs4 import BeautifulSoup

  butterfly_html = urlopen(butterfly_request).read()
  butterfly_obj = BeautifulSoup(butterfly_html,features="html.parser")

到这里,小蝴蝶被小蜘蛛了解了个彻底,小蜘蛛想知道啥,就直接查询butterfly_obj这个对象了,小蝴蝶哭晕在角落 Orz~~~

猜你喜欢

转载自www.cnblogs.com/willow-blueness/p/11773103.html

从零开始的网络爬虫-01.简单的网络爬虫

《从零开始学Python网络爬虫》CH3

学习《从零开始学Python网络爬虫》PDF+源代码+《精通Scrapy网络爬虫》PDF

从零开始学Python网络爬虫电子书分享

从零开始学爬虫003简单js破解

01.爬虫基础

从零开始学Python网络爬虫PDF高清完整版免费下载|百度网盘

Java 从零开始学爬虫（gecco）

从零开始的 Python 爬虫速成指南

从零开始的Python爬虫速成指南

【爬虫】从零开始使用 Scrapy

01.爬虫基础简介

网络爬虫简单策略

python简单网络爬虫

java简单网络爬虫

网络爬虫简单实现

网络爬虫day01

01-什么是网络爬虫

用node.js从零开始去写一个简单的爬虫

学习笔记(01):《从零起步，系统掌握Python网络爬虫》-爬虫介绍

docker从零开始网络（一）概述

从零开始的C++网络编程

从零开始探究网络IO模型

从零开始训练神经网络

计算机网络01--从零开始学

Python学习之网络爬虫01--网络爬虫的定义

Python爬虫从入门到精通——爬虫基础：爬虫的基本原理，从零开始学！

Python3爬虫从零开始：库的安装

Python3爬虫从零开始：环境配置

Python3爬虫从零开始：Xpath的使用

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)