スーパーシンプルなシンプルなPHPの爬虫類

CURLとシンプルなPHPの爬虫類を達成するために、XPathのフィルタデータにより、DOMDocumentオブジェクトを使用します

<?PHPの
 ヘッダ( 'コンテンツタイプ:text / plainの;のcharset = UTF-8' )。

$ target_url = "http://www.baidu.com" $ CH = curl_init(); 

ますcurl_setopt($ chを、CURLOPT_URL、$のtarget_url )。
ますcurl_setopt($ chを、CURLOPT_FAILONERROR、真の); 
ますcurl_setopt($ chを、CURLOPT_FOLLOWLOCATION、真の); 
ますcurl_setopt($ chを、CURLOPT_AUTOREFERER、真の); 
ますcurl_setopt($ chを、CURLOPT_RETURNTRANSFER、真の); 
ますcurl_setopt($ chを、CURLOPT_TIMEOUT、10 ); 

$ HTML = curl_exec($のCH ); 

IF(!$ HTML ){
     エコー "<br /> cURLのエラー番号:" .curl_errno($のCH );
     エコー "cURLのエラー/> <br:" 。curl_error($のCH );
     出口; 
} 

// DOMDOCUMENTは、HTMLのためのプロセスオブジェクトを作成します
$ DOMを = 新しい新しいのDOMDocument();
 // HTMLロードする文字列から 
の@ $のDOMを - > loadHTML($ HTML );
 / / HTML正規化された
の$ DOM - > 正規化(); 

//は、照会のために、DOMXPathを使うことの最大とDOMを読み込みます
$のxpath = 新しい DOMXPathを使うことの最大($のDOM )。
获取所有的标签的地址
$のhref = $のxpath - >評価( '// * / A [ID = "U1" @]' ); 

$ I = 0; $ iが < $ href属性 - >長さ; $ iが ++ ){
     $ HREF = $ href属性 - >アイテム($ I )。
    $ linktext = $ hrefの - > のnodeValue;
    エコー $ linktextをPHP_EOL ; 
}

?> 

<HR> 
<PRE> 
<?= $ htmlの?>
</ PRE>

 

おすすめ

転載: www.cnblogs.com/zjfree/p/11763156.html
おすすめ