Python爬虫之一 - 代码天地

Python爬虫之一

其他 2019-03-21 20:14:43 阅读次数: 0

1. 爬虫的选取：scrapy和requests+beautifuisoup

　　scrapy是框架，而requests和beautifulsoup是库。scrapy框架是可以加如requests和beautifulsoup库的，而scrapy是基于twisted，性能是最大的优势。scrapy方便扩展，提供很多内置的功能。scrapy内置的css和xpath selector非常方便，beautifulsoup就是有点慢。

2.常见网页分类

　　静态网页，动态网页、webservice

3.爬虫能做什么

　　1）搜索引擎---百度、google、垂直领域搜索引擎

　　2）推荐引擎---今日头条

　　3）机器学习的数据样本

　　4）数据分析（如金融数据分析）、舆情分析等

4.正则表达式

　　1）特殊字符（^）

代码：
　　　　　　import re
　　　　　　"""
　　　　　　1）^"必须是^后面的字符"
　　　　　　2) .是除了\n的任意字符
　　　　　　3) *是一个限定符，用来修饰前一个字符或分组，限定匹配重复的数量为任意数量。
　　　　　　"""
　　　　　　#”^“、”.“、”×“测试
　　　　　　test_str = "zzbaby"
　　　　　　reg_str = "^b.*"
　　　　　　if re.match(reg_str,test_str):
　　　　　　　　print("yes")
　　　　　　else:
　　　　　　　　print("no")

结果：

　　　　no　

　　2）特殊字符（$）

代码：

猜你喜欢

转载自www.cnblogs.com/hhxz/p/10574121.html

Python爬虫之一

python爬虫基础之一（爬淘宝）

Python网页爬虫selenium，chromedriver之一

python爬虫之一个完整的小爬虫

python网络爬虫学习笔记之一爬虫基础入门

Python爬虫之一：抓取猫眼电影TOP100

利用Python进行简单爬虫----学习之一

爬虫实战之一--python3及pip安装

Python爬虫练习之一：抓取美团数据

python爬虫之一 —— 爱斗图图包抓取

汇智学堂-Python爬虫入门之一

python最简单爬虫入手例子之一：

实战Python网络爬虫笔记之一基础知识

python爬虫学习requests中的模块请求参数之一

Python爬虫入门之一通用爬虫和聚焦爬虫

网络爬虫实例之一

网络爬虫总结之一

Python3爬虫教程基础篇之一：什么是爬虫

各大网站的 Python 爬虫登录汇总！爬虫必会技能之一！

Python爬虫之一--爬虫获取王者荣耀全英雄皮肤

python基础之一

python学习之一

python的class之一

python爬虫之一(2)：爬取网页小说（圣墟）

python爬虫之一：爬取网页小说（魂破九天）

python3.6.5爬虫之一：笔趣阁小说爬取（首页爬取法）

最让人喜欢的Python爬虫案例没有之一: 爬取妹子图

python爬虫小练习之一：bs4库基础爬信息

Python爬虫入门教程 6-100 蜂鸟网图片爬取之一

Python爬虫入门教程第六讲：蜂鸟网图片爬取之一

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)