爬虫（一）抓取百度页面的内容 - 代码天地

爬虫（一）抓取百度页面的内容

其他 2018-08-08 05:16:32 阅读次数: 0

最近在实习，导师又没得项目让我一起做东西，就自己坐在一边瞎鼓捣东西

那闲着也是闲着，想来写写爬虫

爬虫百度百科上的定义如下

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

也就是从网页抓取自己想要的数据，得到的数据可以进行更深一步的处理。

因为实习是PHP，那就用PHP来写吧，环境是Win10+php7.1+nginx

首先要开curl扩展，在php.ini中将extension=php_curl.dll前面的分号去了，然后重启下php和nginx

然后就开始写一个最简单的爬虫了，把百度首页的内容抓取到本地来

//初始话curl句柄
$ch = curl_init();

//要抓取的网页
$url = "https://www.baidu.com";
//设置访问的URL,curl_setopt就是设置连接参数

curl_setopt($ch, CURLOPT_URL, $url);

//不需要报文头
curl_setopt($ch, CURLOPT_HEADER, FALSE);

//跳过https验证，访问https网站必须加上这两句
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); 
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE); 

//返回响应信息而不是直接输出，默认将抓取的页面直接输出的
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

//开始执行
if (!$output = curl_exec($ch)) {
    	echo "Curl Error:". curl_error($ch);
    }
//执行结束后必须将句柄关闭
curl_close($ch);

//保存页面信息
$html = fopen('D:/baidu_data.html', 'w');
fwrite($html, $output);
fclose($html);
echo '保存成功';

好啦现在已经会抓页面了，接下来来处理一下数据

猜你喜欢

转载自blog.csdn.net/qq_40691208/article/details/81166506

爬虫（一）抓取百度页面的内容

影响百度蜘蛛抓取网站页面的因素有哪些

软件测试|使用Python抓取百度新闻的页面内容

python 爬虫, 抓取百度美女吧图片

Python爬虫实战：抓取并保存百度云资源

python爬虫学习之百度贴吧抓取

【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码

python 简单爬虫,爬100个百度百科页面的标题和描述

轻量级爬虫实例——爬取百度百科1000个页面的数据

百度图片抓取

爬虫（一）百度翻译

百度爬虫

一个简单的爬虫保存百度、360 搜索内容到数据库

利用爬虫爬取百度贴吧内容

Python爬虫实践：获取百度贴吧内容

爬虫-1.5获取百度贴吧内容

爬虫学习笔记（一）---获取页面、图片、百度翻译

使用Selenium抓取百度指数一

爬虫--任意百度贴吧任意页数HTML内容页面下载（未经过滤处理）

Python爬虫抓取页面内容

百度音乐爬虫

百度图片爬虫

百度指数爬虫

百度APP爬虫

百度文库爬虫

爬虫 -- 百度图片

【新手向】使用nodejs抓取百度贴吧内容

WordPress快速增加百度收录,加快网站内容抓取

Python爬取百度百科1000个页面的数据

使用Robots.txt引导百度爬虫合理分配抓取资源

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)