はじめに
テキストのみを学習するために、ネットワークから、この記事の写真、交換ではなく、任意の商業目的のために、どんな質問ならば、治療のための私達に連絡してください、元の作者に属します。
著者:HOT_and_COOl
クローラは、収集有用なデータ統合と分裂へのWebページをクロールすることができ、それがページ上のすべての画像をクロールし、新しいフォルダに保存する簡単なプログラムを使用することで、あなたは登ることができ、そのような他の人のように、データマイニングを使用することができます国民が知っているようなソーシャルネットワーキングサイトの自分撮りマップは、一緒に写真の数十万人は、それが見えます。クロールデータはまた、視覚的なものを生成するために処理することができます。あなたがPythonの爬虫類を学ばなかった場合も、Pythonのドレスの小さなシリーズを交換することをお勧めします。思考の流れの下で(デジタル同音異義語)変換を見つけることができる一方で、長い時間と彼らの武器は、兄の内部よりも多くのと、新しいPythonのチュートリアルプロジェクトがありますAC!
II。ページ要求プロセス
(注:Python3.6.1のためのエディタの使用環境、python2.xとPython3.xがこれに異なる、2.xでは2つのurllibはとurllib2の、および3.xのみurllibはあります)
このライブラリurllibはの主な用途
次いで、プロセスは、メッセージを返し、単にサーバにヘッダ情報を送信する手段をWebページを要求しました。
あなたは見るためにページ要素を表示することができます
POST、使用される一般的な方法はGETで
事前にフィルタのメッセージには、パラメータを持っていることが分かるのUser-Agentで、アプリケーションならば、これは、アクセス要求の環境、通常はブラウザですアクセスは、悪質なアクセスを防止するために、訪問することができますが、変装の方法がありますされていないPython3.x、あるとき
III。シンプル登るページ
-
輸入urllib.resquest
-
URL = "http://www.baidu.com"
-
応答= urllib.resquest.urlopen(URL)
-
HTML = respose.read()
-
eachlineのためのHTMLで:
-
印刷(eachline)
①最初の部分は、プロトコル(またはサービスモードと呼ぶ)です。
②ホストIPアドレスのリソースの第2の部分は、(時には、ポート番号を含む)があります。
③第三部は、ホストのようなディレクトリやファイル名などの特定のアドレスリソース、。
IV。楽しいのアンの例では、爬虫類の楽しさの毎分を理解するように、翻訳しました
-
輸入urllib.request
-
輸入urllib.parse
-
輸入JSON
-
-
-
INPUT =コンテンツ( 「翻訳されるコンテンツを入力してください:\ n」は)
-
-
-
URL = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link'
-
データ= {}
-
データ[ 'タイプ'] = 'AUTO'
-
データ[ 'I'] =コンテンツ
-
データ[ 'DOCTYPE'] = 'JSON'
-
データ[ 'xmlVersion'] = '1.8'
-
データ[ 'keyfrom'] = 'fanyi.web'
-
データ[ 'UE'] = 'UTF-8'
-
データ[ 'アクション'] = 'FY_BY_CLICKBUTTTON'
-
データ[ 'typoResult'] = '真'
-
-
データ= urllib.parse.urlencode(データ).encode( 'UTF-8')
-
-
応答= urllib.request.urlopen(URL、データ)
-
HTML = response.read()。デコード( 'UTF-8')
-
-
ターゲット= json.loads(HTML)
-
印刷( '翻訳がある:S%' %(目標[ 'translateResult'] [ 0] [ 0] [ 'TGT']))
-
urllib.request.urlopen(url,data)
データは、図2の要求データである。
URLは、上の図のリクエストURLです
!