什么叫抓取?
通过PHP代码来实现,把其它网页的内容抓取到本地,抓取的时候需要联网才可以
1.通过file_get_contents()函数实现抓取。
前提:在php.ini中设置允许打开一个网络的url地址。
代码如下:
<?php |
|
echo file_get_contents('http://www.baidu.com'); | |
?> |
有的网站抓取过来是乱码状态如下:
��S�OA��W�{�eiiY�P��=h�'��N� ������|�-c Q�(��wf�'�߲P�AM<�μ�o��1o/\�~��ÂA-s�g0�`ƪ!%��C��.T�$��0U[�p^���O8����4/&ը[���N-|���]�z9�<aq��q@�[o�h+lw����#��u�`�k��u��k�g?�mn��|���p�1��-�l��&[zc0xseۏ�[5���^<a��m�� �@�="" �5���8�="" �ep�="" wb="" �r="" ����[n��r���w��c�q��è���ev����o})ov��a�cؘk��%6���<�Ͱ�[��o��nx����q�z�z���d�zb="" �1bk!z���t�="" 7@x"="" 2�i��:�am.�kl~��'����|����7�d�3h����yp��="" n|�����nn$�e80|��="" ad�s="�ضT�'K��#��?��J�+8����~�����܀6�甑�\����l_&��(�" style="color: rgb(0, 0, 0); font-family: "Microsoft YaHei"; font-size: medium; text-align: start;">��ᚡz>��*҂t��Ԡԕ�"ϋ��[��ˎ�����������>��fx4j�lҸ�u�a�ܖ <2F�8�c��<�:=_Htj�u���K�֫�29M��RG�/�D�}�(J�3����>�@��O��trnl��o{�H�������%�5#�$����bV)e�����J�k��l�o�tII����#�T*S�q�� ���XK��D>o~E�/q`�5�Ɍ'P$F�qؑ8D#Ա۱g���v��a/BBB�ರ���8p�_�;��/���+�d���w���WWW���V����v�sW��:�2t�Β��\��h�i�Բ{�u�Sd��x�1�,{P�~���넼����/.~�����/�~v��I��3&cGӆ�M�� H�[���-;�����j�q}��e��i�mV�ݠ~ʕ~ � |
解决方案如下:
<?php $url="http://www.sohu.com/"; echo file_get_contents("compress.zlib://".$url); ?>