CURLとシンプルなPHPの爬虫類を達成するために、XPathのフィルタデータにより、DOMDocumentオブジェクトを使用します
<?PHPの ヘッダ( 'コンテンツタイプ:text / plainの;のcharset = UTF-8' )。 $ target_url = "http://www.baidu.com" 。 $ CH = curl_init(); ますcurl_setopt($ chを、CURLOPT_URL、$のtarget_url )。 ますcurl_setopt($ chを、CURLOPT_FAILONERROR、真の); ますcurl_setopt($ chを、CURLOPT_FOLLOWLOCATION、真の); ますcurl_setopt($ chを、CURLOPT_AUTOREFERER、真の); ますcurl_setopt($ chを、CURLOPT_RETURNTRANSFER、真の); ますcurl_setopt($ chを、CURLOPT_TIMEOUT、10 ); $ HTML = curl_exec($のCH ); IF(!$ HTML ){ エコー "<br /> cURLのエラー番号:" .curl_errno($のCH ); エコー "cURLのエラー/> <br:" 。curl_error($のCH ); 出口; } // DOMDOCUMENTは、HTMLのためのプロセスオブジェクトを作成します $ DOMを = 新しい新しいのDOMDocument(); // HTMLロードする文字列から の@ $のDOMを - > loadHTML($ HTML ); / / HTML正規化された の$ DOM - > 正規化(); //は、照会のために、DOMXPathを使うことの最大とDOMを読み込みます $のxpath = 新しい DOMXPathを使うことの最大($のDOM )。 #获取所有的标签的地址 $のhref = $のxpath - >評価( '// * / A [ID = "U1" @]' ); 用($ I = 0; $ iが < $ href属性 - >長さ; $ iが ++ ){ $ HREF = $ href属性 - >アイテム($ I )。 $ linktext = $ hrefの - > のnodeValue; エコー $ linktextを。PHP_EOL ; } ?> <HR> <PRE> <?= $ htmlの?> </ PRE>