Python3爬虫从零开始：库的安装 - 代码天地

Python3爬虫从零开始：库的安装

其他 2018-10-25 18:17:39 阅读次数: 0

抓取网页之后下一步就是从网页中提取信息。提取方式有很多种，可以利用正则表达式进行提请，但是相对而言比较麻烦繁琐。现在有很多强大的解析库供我们使用，如lxml,Beautiful Soupp,pyquery等。本节对其安装进行介绍。

lxml的安装

lxml支持HTML和XML的解析，支持XPath解析方式。

在Windos下直接利用pip安装，执行命令行命令：

   pip3 install lxml

Beautiful Soup的安装

Beautiful Suop是Python的一个HTML或XML的解析库，我们可以用它来方便地从网页中提取数据。它的HTML和XML解析器是依赖于lxml库的，所以在此之前需要确保已经成功安装好了lxml库。

依旧是pip安装：

pip3 install beautifulsoup4

pyquery的安装

pyquery提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器。

pip3 install pyquery

tesserocr的安装

爬虫过程中难免遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候可以用OCR（Optical Character Recognition）来识别。

tesserocr是Python的一个OCR识别库，但其实是对tesseract坐的一层Python API封装，所以它的核心是tesseract。因此，在此之前需要安装tesseract。

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

文件名中带dev的为开发版本，不带的为稳定版本。这里我下载了不带dev的3.05版本。

下载好后勾选上Additional language data(download)选项来安装OCR识别语言的支持包。其他的一路Next就OK。

最后，安装tesserocr即可：

pip3 install tesserocr pillow

安装好的各种库，最后在python目录下\Lib\site-packages中可以查看到。

Mysql的安装

这里安装Mysql参照教程：https://blog.csdn.net/qq_37350706/article/details/81707862

猜你喜欢

转载自blog.csdn.net/qq_26736193/article/details/83046833

Python3爬虫从零开始：库的安装

Python3爬虫从零开始：Xpath的使用

Python3爬虫从零开始：环境配置

Python3爬虫从零开始：Beautiful Soup的使用

Python3爬虫从零开始：urllib库的使用（二）

Python3爬虫从零开始：urllib库的使用（一）

从零开始学python3

Python3爬虫从零开始：正则表达式

Python3爬虫从零开始：抓取天猫电影排行

Centos7 从零开始安装Python3，部署Python Flask项目

从零开始学python3（三）基础语法

从零开始写Python爬虫 --- 1.1 requests库的安装与使用

从零开始写Python爬虫 -1.2 BS4库的安装与使用

从零开始写Python爬虫 -1.1 requests库的安装与使用

从零开始写Python爬虫 --- 1.2 BS4库的安装与使用

从零开始写Python爬虫---1.1 requests库的安装与使用

Python从零开始写爬虫（二）BeautifulSoup库使用

Python从零开始写爬虫（一）requests库使用

python爬虫---从零开始（六）Selenium库

《从零开始学Python网络爬虫》CH3

Python从零开始（库的安装与初步使用3+习题1.6）

Python从零开始（库的安装与初步使用2）

Python从零开始（库的安装与初步使用1）

从零开始的 Python 爬虫速成指南

从零开始的Python爬虫速成指南

python3 常用爬虫库安装

ubuntu 从零开始部署自动化测试环境HttpRunner Ubuntu设置默认使用Python3 & ubuntu安装pip3和Python的第三方库

从零开始学习PYTHON3讲义（二）把Python当做计算器

从零开始学习PYTHON3讲义(一)认识Python

从零开始用Python3做数据分析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)