记录小白学习python爬虫的过程（一） - 代码天地

记录小白学习python爬虫的过程（一）

其他 2021-01-22 22:49:40 阅读次数: 0

记录小白学习python爬虫的过程（一）

囫囵吞枣python的基本语法后，我安装了python3.6.4和pycharm2017，开始了python爬虫之旅。

import lxml.html,requests
url = 'https://www.python.org/dev/peps/pep-0020/'
xpath = '//*[@id="the-zen-of-python"]/pre/text()'
res = requests.get(url)
ht = lxml.html.fromstring(res.text)
text = ht.xpath(xpath)
print('Hello,\n'+''.join(text))

这是一个被称为HelloSpider的爬虫程序，是小白要学的第一个爬虫程序，可以称为python爬虫领域的HelloWorld。

一开始我就遇到了问题。Pycharm出现No Python interpreter selected，查阅资料后我发现，是因为还没在Project Interpreter中配置lxml等库。

调整之后，成功输出了“python之禅”的内容。真的666！

在这里插入图片描述

接下来逐句分析HelloSpider程序

import lxml.html,requests

上述代码使用import导入lxml.html和requests这两个模块

url = 'https://www.python.org/dev/peps/pep-0020/'

上述代码定义了url这个变量，是一个将要被爬的网页的链接

xpath = '//*[@id="the-zen-of-python"]/pre/text()'

这个地方我卡了好久，后来大概可能明白了。xpath变量是用来定位元素的，来自lxml库。id="the-zen-of-python 这句话就是要定位的对象，它可以根据html中的文本信息替换成name=…、class=…等等。

即"//标签名[ @属性= “属性值”]"

后面的/pre是文本的索引，必不可少，删了就无法正常运行，应该是为了明确爬取文本的范围。

至于/text()，可能就是为了获取文本吧？

res = requests.get(url)

上述代码使用Requests中的get()方法，对url发送一个HTTP GET请求，返回值被赋值给res。

ht = lxml.html.fromstring(res.text)

fromstring()在解析lxml格式时，将text文本内容转换为HtmlElement对象。说实话，此处我还不太懂。

text = ht.xpath(xpath)
print('Hello,\n'+''.join(text))

输出文本

其中还有很多细节，不加赘述。

后面又学习了检查网站是否可爬、查看网站所用技术和网站所有者信息等。

猜你喜欢

转载自blog.csdn.net/weixin_48916816/article/details/108570326

记录小白学习python爬虫的过程（一）

记录小白学习python爬虫的过程（二）

python爬虫学习过程记录

python小白学习过程

初学python爬虫，记录一下学习过程，requests库获取网页代码

初学python爬虫，记录一下学习过程，requests库使用代理

初学python爬虫，记录一下学习过程，requests xpath 提取图片并保存02

初学python爬虫，记录一下学习过程，xpath多属性匹配

初学python爬虫，记录一下学习过程，xpath属性多值匹配

初学python爬虫，记录一下学习过程，xpath提取文本

初学python爬虫，记录一下学习过程，xpath提取属性

初学python爬虫，记录一下学习过程，requests库模拟登录01

python爬虫学习记录

小白学习android mediaPlayer过程的记录

初学python爬虫，记录一下学习过程，requests xpath os 提取MM图片并保存本地 03

初学python爬虫，记录一下学习过程，requests xpath提取图片地址并保存图片

初学python爬虫，记录一下学习过程，正则表达式提取文本

初学python爬虫，记录一下学习过程，正则表达式提取图片网址

初学python爬虫，记录一下学习过程，requests库session处理cookies并登录网址

初学python爬虫，记录一下学习过程，requests库模拟登录02，使用 for循环处理cookies

初学python爬虫，记录一下学习过程，requests库处理不信任证书问题

python小白学习记录结合scrapy编写爬虫爬取古诗文网右侧的标签

python 爬虫学习过程剖析

python爬虫----小白学习心得

小白应该如何学习Python网络爬虫？

小白学习python_scrapy爬虫

小白如何学习Python网络爬虫？

送给Python小白学习爬虫的小项目

python小白学习记录 selenium的初步学习

记录自己python爬虫的学习

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)