__author__ = ' 管理者' #- * - - * -エンコーディング= GBK インポート要求が インポートOS から BS4のインポートBeautifulSoupを より urllib.parse インポートurlparse R(= requests.get ' http://xiachufang.com/ ' ) スープ = BeautifulSoup( r.text) img_list = [] のためのimg に soup.select(' IMG ' ): もし img.has_attr(' データSRC '): img_list.append(img.attrs [ ' データ-SRC ' ]) 他: img_list.append(img.attrs [ ' SRC ' ]) image_dir = os.path.join(os.curdir、' 画像' ) 、印刷( image_dir) プリント(os.curdir) なら ないos.path.isdir(image_dir): os.makedirs(image_dir) のために IMG にimg_list: O = urlparse(IMG) ファイル名 = o.path [1]。スプリット(' @ ' )[0] ファイルパス =os.path.join(image_dir、ファイル名) を印刷(img.split(' ?')[0] .split(' @ ' )[0]) RESP = requests.get(img.split(' ?')[0 ] .split(' @ ' )[0]) を開く(ファイルパスと' WB ' F AS) のためのチャンクに resp.iter_content(1024): #は、書き込みキャッシュブロックサイズ設定 f.write(チャンク)
urllibはは 標準ライブラリのpython3する 解析 から urllib.request インポートurlopen R&LT = urlopen(" http://httpbin.org/get " ) r.read() #は、バイナリコンテンツ与える 。テキストr.readを=()(デコード" UTF-を図8 ")#の文字列にデコードして、このサイト上のコンテンツは、JSON形式を取得するための内部の内容ですので、あなたはjson.loads(R)を使用することができ r.statusの#はリクエストHU 200の結果を返します r.resonの#1 の説明 DIR(rは)#すべての方法を取得し、これらのすべてのオブジェクトは、メソッド有する r.headersの#はヘッダ情報取得 XPathは言語の情報を見つけるためにXML文書である 概念を ノードの 要素、属性、テキスト、共同名前空間ドキュメント(ルート)ノード 間のノードの関係 、親 、子 の同胞は、 先祖 の子孫の 表現 //は、 任意のサブノードから選ぶ / ルートからカット選択のポイント 。現在のノードから選択 。。現在のノードの親 @プロパティを取ります