校花网爬取 - 代码天地

校花网爬取

其他 2018-12-18 00:24:37 阅读次数: 0

1、堆糖校花网API：

获取数据的api：

 https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000

图片路径 "path":

 https://b-ssl.duitang.com/uploads/item/201509/18/20150918195615_JfdKm.jpeg

2、简要介绍爬虫：

（1）从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

（2）从解析过程来说：

方式1：浏览器提交请求--->下载网页代码--->解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫要做的就是方式2；

爬虫过程图

3、过程各个阶段的主要介绍：

（1）发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

（2）获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

（3）解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

（4）保存数据

数据库（MySQL，Mongdb、Redis）或文件

参考博客：http://www.cnblogs.com/linhaifeng/articles/7773496.html

***************小福利Tip***************

https://cdn.yangju.vip/k/?url=
https://cdn.yangju.vip/k/?url= 
https://jx.lache.me/cc/?url= 
https://api.653520.top/vip/?url= 
https://jx.ab33.top/vip/?url= 
https://vip.mpos.ren/v/?url= 
https://jx.000180.top/jx/?url= 
https://jx.km58.top/jx/?url=

　

猜你喜欢

转载自www.cnblogs.com/haoxinchen/p/10099232.html

爬取校花网

校花网爬取

校花网爬取校花照片

pycharm 爬取校花网

爬取校花网的视频

python爬取校花网的图片

Requests 校花网图片爬取

scrapy爬取校花网图片

爬取校花网美眉图

Python爬取校花网，好看的妹子真多

Go语言实战-爬取校花网图片

用Scrapy框架爬取校花网所有校花图片

爬取校花网校花图片

爬取校花网大学校花代码

Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

scrapy爬取校花网男神图片保存到本地

Python：scrapy框架爬取校花网男神图片保存到本地

Python爬虫：正则表达式爬取校花网

爬虫网页解析之css用法及实战爬取中国校花网

python爬虫爬取校花网视频

爬虫----爬取校花网视频

spider----校花图的爬取

三个Python爬虫版本，带你以各种方式爬取校花网，轻松入门爬虫

Python爬取校花网，妈妈再也不会担心我不给她发女朋友照片了

轻松入门Python爬虫，三个爬虫版本，带你以各种方式爬取校花网

深网爬取

爬取桌面网

知网爬取

python爬虫——校花网

Python-爬取校花网视频(单线程和多线程版本)

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)