PHP简单爬虫&HTML DOM解析器&抓取网站内容

其他 2018-12-06 11:30:54 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zhuxiongyin/article/details/83930493

PHP简单爬虫&HTML DOM解析器&抓取网站内容

简介

实例

例如你的网页index.html
php代码

简介

为了能简单地用PHP爬取网站上的内容，用了HTMLDOM解析器简单地抓取内容。练习下如何地神奇。
simple_html_dom的下载文档地址：在线文档。
为了方便这是解析器文件：文件下载。

实例

网站的抓取比较广，就不多分析了，只是简单地网页抓取测试。

例如你的网页index.html

<ul class="list">
	<li>
		<a heft="index.html">抓取的数据内容</a>
	</li>
</ul>

php代码

<?php
header("Content-type:text/html;charset=utf-8");

//引用解析器文件
include_once 'simple_html_dom.php';
//使用file_get_html获取html数据转化为对象
//你要转化的网站地址index.html
$html = file_get_html('index.html');

//在类标签内class='list',使用find方法查找数据内容 
foreach($html->find('.txt-list li a') as $element)
//多条数据行可以用<br />等划分，例如：innertext . <br>。
$arr[]= $element->innertext;

//自动生成文件
$fileName='data.txt';
$arrLen=count($arr);
for($i=0;$i<$arrLen;$i++){
	
	//FILE_APPEND|LOCK_EX 是往后追加数据
	file_put_contents($fileName,$arr[$i],FILE_APPEND|LOCK_EX);
}
//抓取的数据保存到data.txt
$content=file_get_contents($fileName);
$cont=explode("<br>",$content);
$contLen=count($cont);
for($i=0;$i<$contLen;$i++) {
	unset($cont[2*$i+1]);
}

猜你喜欢

转载自blog.csdn.net/zhuxiongyin/article/details/83930493

PHP简单爬虫&HTML DOM解析器&抓取网站内容

PHP简单HTML DOM解析器

简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

Lua编写简单的内容解析器

html解析器

PHP的SAX解析器和DOM解析器的运用（一）——导出数据库数据并生成XML文档

爬虫：模拟浏览器对网站内容进行爬取

html.parser - 简单的HTML和XHTML 解析器

html.parser --- 简单的 HTML 和 XHTML 解析器

Jsoup（java的HTML解析器）简介——使用Java抓取网页数据

HTML 解析器 jsoup

JSoup HTML解析器

html解析器对比

最简单的解析器.

JAVA爬虫网站内容保存指定文件

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

基本爬虫架构实现的豆瓣爬虫（三）: HTML 解析器

JavaScript轻松抓取网站内容

Jsoup -- 网络爬虫解析器

python爬虫(五)网页解析器

Python写爬虫——抓取网页并解析HTML

HTML文档解析器 NekoHTML

java开源HTML解析器收集

java-jsoup html解析器

HtmlCleaner Html文档解析器

新的webkit中html解析器

springmvc html与jsp解析器

Java HTML解析器【jsoup】

jsoup：Java HTML解析器

HTML&XML解析器--Jsoup

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)