爬虫的知识 - 代码天地

爬虫的知识

其他 2019-04-05 16:21:25 阅读次数: 0

在我的理解下，Python的主要用途就是三点：一是做单机处理程序。（文本、数字、文件）。二是WEB程序（django/flask。）三是爬虫。

要做爬虫，就离不了这两个第三方库：一是requests，这个大家都熟悉，要使用它来模拟浏览器的GET、POST操作，安装也比较简单，直接pip3 install requests即可。

注：如果完成后，无法正常使用，提示没有get参数时，可以到安装目录下找一找，看有没有一个文件夹的名字是requests，如果有的话，改名、删除即可正常使用。

二是beautifulsoup， BeautifulSoup是python的一个第三方库，在爬虫中，起着网页解析器的作用，可以对下载好的网页进行页面元素分析，提取出有价值的数据。安装j

比较简单，直接pip3 install bs4 ，（这里注意，不能直接安装beautifulsoup），导入时from bs4 import BeautifulSoup即可。

看一下这段代码，就是到博客园中，获取某一页关于PYTHON的文件列表，最终生成的列表中，存储了标题和链接。

import requests
from bs4 import BeautifulSoup
url="https://www.cnblogs.com/cate/python/"

res=requests.get(url)
# with open('pc1.html','w',encoding='utf-8') as f:
#     f.write(res.text)
#
soup=BeautifulSoup(res.text,"html.parser")
res_div=soup.find(name='div',attrs={'id':"post_list"})
url_list=res_div.find_all(name='h3')
data_list=[]
for item in url_list:
    title=item.text
    link=item.find(name='a',attrs={'class':"titlelnk"}).attrs.get('href')
    data_list.append({'title':title,'link':link})
print (data_list)

猜你喜欢

转载自www.cnblogs.com/lzszs/p/10658797.html

爬虫知识

爬虫的知识

爬虫知识总汇

基础知识 - 爬虫

网络爬虫需要的知识

爬虫相关知识（一）

python爬虫知识总结

简单的爬虫知识（2）

爬虫基础知识

【Python爬虫】入门知识

爬虫-----概念知识

爬虫入门知识总结

爬虫知识1

爬虫前期知识的储备

爬虫的基础知识

爬虫必备知识

爬虫_基础知识

爬虫知识整理

Python 爬虫知识

对爬虫知识的系统总结

爬虫知识点

爬虫的基本知识

Python爬虫知识

<爬虫>相关的知识

爬虫准备知识

爬虫知识汇总

python知识-爬虫

爬虫常用知识

爬虫(一)网络爬虫/相关工具与知识

爬虫基本知识及简单生成爬虫

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

WebSocket、HTTP 与 TCP

private,public,protected的区别

Python用了这么多年，总结出超实用的功能和特点

dgwp笔记

ModuleNotFoundError: No module named 'gdbm'

数组的去重方法

Ternsorflow 学习：005-MNIST 实现模型

SpringBoot 2 源码学习笔记（二）

jaxws-spring 搭建Web Services笔记

读取properties文件并获取属性值

每日归档

更多

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)