爬虫基本结构浅习(适合对python了解不深想学习的人群)


终于开始研究爬虫(略略看过语法,就来上手

一.环境搭建

先扔出python环境安装,附上链接
菜鸟教程Python 环境搭建
更详细版的安装教程
安装好了之后,你可以使用命令行(cmd)打开python,或者使用IDLE打开编译(直接搜索IDLE)
如果想实时看到效果并保存代码,嫌弃IDLE两个框麻烦,以及命令行无法将写得代码存成文件的缺点,可以下载Visual Studio Code
https://code.visualstudio.com/
效果如下
在这里插入图片描述

出现的一些问题:

如果cmd无法打开python怎么办?

看上面菜鸟教程安装链接里的环境变量设置

如何查找python3的安装位置?

1.自主记忆
2.在命令行能打开python的前提下,输入

import sys
print(sys.path)

二.参考练习

教程链接

Python爬虫|Python爬虫入门(一):爬虫基本结构&简单实例
这篇教程简单易懂
爬虫的核心模块有三个:请求、解析、储存。

出现的一些问题

形如ModuleNotFoundError: No module named ‘requests’

新下载的python,没有一些需要的模块,运行代码时常常会出现
在这里插入图片描述
如果你安装python时如下图,你的pip工具已经安装了
在这里插入图片描述
此时,只需在命令行里输入pip install requests,可以将此处的requests换成报错的其他东西。
在这里插入图片描述
如果没有安装pip等,请参考
Windows下 Python 模块的安装方法
python模块安装的几种方法

个人实战(可略过)

以下是根据教程摘出来的注释与代码

#请求
#导入requests:
import requests
#调用requests的get函数,把网页请求下来
r = requests.get('http://www.wise.xmu.edu.cn/people/faculty')
#把我们需要的网页提取出来
html = r.content
#解析
#导入bs4里的BeautifulSoup
from bs4 import BeautifulSoup
#创建一个BeautifulSoup对象:
soup = BeautifulSoup(html,'html.parser')    #html.parser是解析器
'''
这里使用了BeautifulSoup对象的find方法。意思是找到带有‘div’这个标签
并且参数包含" class = 'people_list' "的HTML代码。如果有多个的话,find方法就取第一个。
'''
div_people_list = soup.find('div', attrs={'class': 'people_list'})
#取出所有的“a”标签里面的内容:
#使用find_all方法取出所有标签为“a”且参数包含“ target = ‘_blank‘ ”的代码,返回一个列表。
a_s = div_people_list.find_all('a', attrs={'target': '_blank'})
'''
“a”标签里面的“href”参数是我们需要的老师个人主页的信息,而标签里面的文字是老师的姓
名。使用BeautifulSoup支持的方法,使用类似于Python字典索引的方式把“a”标签里面“href”
参数的值提取出来,赋值给url(Python实际上是对对象的引用),用get_text()方法把标签里面
的文字提起出来。
'''
for a in a_s:
    url = a['href']
    name = a.get_text()
    print (name,url)

运行结果,开心
在这里插入图片描述
打算爬北邮官网的这部分在这里插入图片描述
mainnav clearfix
然而,错误这么长在这里插入图片描述
我,一会再来改吧(这个一会不知道是多久
最后发现,网址粘错了。
ok,风平浪静

发布了26 篇原创文章 · 获赞 18 · 访问量 1646

猜你喜欢

转载自blog.csdn.net/qq_40774136/article/details/103502766
今日推荐