采集 - 代码天地

采集

编程语言 2018-05-24 14:27:56 阅读次数: 0

采集有两种方式访问

1、file_get_contents()

2、curl_init()

一、file_get_contents()

1、使用file_get_contents()抓到你网页的内容，当访问有的页面的时候回出现乱码，原因是因为有的页面数据量大需要ji

例如：

$url = "http://www.sohu.com/";  
echo file_get_contents('compress.zlib://'.$url);

$url = "http://www.sohu.com/";
echo file_get_contents('compress.zlib://'.$url);

2、获取页面里面的内容

使用正则规则：

例如：

1.获取title标签的内容：

$preg="#<title>(.*)</title>#isU";  
preg_match_all( $preg,$con,$result);//php正则表达式  
print_r($result);exit;

[php]view plain copy
$preg="#<title>(.*)</title>#isU";  
preg_match_all( $preg,$con,$result);//php正则表达式  
print_r($result);exit;  

2.使用.*的意思是：获取标签里面全部的内容

3.使用i，s，u的意思分别是：

i是将正则表达式取消大小写的敏感性

s 模式中的圆点元字符（.）匹配所有的字符，包括换行符

U (PCRE_UNGREEDY) 本修正符反转了匹配数量的值使其不是默认的重复，

二、curl

<?php  
$url="http://www.baidu.com/";  
$ch = curl_init();  //1.初始化  
curl_setopt($ch, CURLOPT_URL, $url); //2.请求地址  
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");//3.请求方式，请求方式默认是get  
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);  
$tmpInfo = curl_exec($ch);//6.执行  
if (curl_errno($ch)) {//7.如果出错  
    return curl_error($ch);  
}  
curl_close($ch);//8.关闭  
var_dump($tmpInfo);

猜你喜欢

转载自blog.csdn.net/chao0508/article/details/80371428

采集

采集文章

日志采集

采集思路

数据采集

QueryList采集

声音采集

flume采集

数据采集中的全量采集，增量采集，差异采集

数据的采集

资产采集：

电力采集

采集douban

图像采集

【1025】直接采集 > 间接采集

数据采集—数据采集技术

HALCON：图像采集之同步采集（synchronous）与异步采集（asynchronous）

php采集-防乱码-CURL采集，匹配正则采集

数据采集接口分类：数据采集、数据的采集有哪些?

1688产品采集软件采集步骤

PHP采集程序常用的采集函数

python数据采集10-采集JavaScript

python数据采集3-开始采集

PHP采集图片实例（PHP采集）

ASP采集-ASP采集程序原理

Halcon相机的同步采集和异步采集

数据采集—业务系统日志数据采集

数据采集—数据库基础及采集

大数据采集工具与采集业务划分

【采集项目-（6)全量数据采集】

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)