xiachufang絵のテスト手をクロール

__author__ = ' 管理者' 
- * - - * -エンコーディング= GBK 
インポート要求が
 インポートOS
 から BS4のインポートBeautifulSoupを
 より urllib.parse インポートurlparse 

R(= requests.get ' http://xiachufang.com/ ' 
スープ = BeautifulSoup( r.text)
img_list = []
 のためのimg  soup.select(' IMG ' ):
     もし img.has_attr(' データSRC '):
        img_list.append(img.attrs [ ' データ-SRC ' ])
     
        img_list.append(img.attrs [ ' SRC ' ])
image_dir = os.path.join(os.curdir、' 画像' 、印刷( image_dir)
 プリント(os.curdir)
 なら ないos.path.isdir(image_dir):
    os.makedirs(image_dir)
のために IMG img_list:
    O = urlparse(IMG)
    ファイル名 = o.path [1]。スプリット(' @ ' )[0] 
    ファイルパス =os.path.join(image_dir、ファイル名)
     を印刷(img.split(' ')[0] .split(' @ ' )[0])
    RESP = requests.get(img.split(' ')[0 ] .split(' @ ' )[0])
    を開く(ファイルパスと' WB ' F AS)
         のためのチャンク resp.iter_content(1024): は、書き込みキャッシュブロックサイズ設定 
            f.write(チャンク)
urllibはは
    標準ライブラリのpython3する
        解析
        から urllib.request インポートurlopen 
        R&LT = urlopen(" http://httpbin.org/get " 
        r.read() は、バイナリコンテンツ与える 
        。テキストr.readを=()(デコード" UTF-を図8 "#の文字列にデコードして、このサイト上のコンテンツは、JSON形式を取得するための内部の内容ですので、あなたはjson.loads(R)を使用することができ 
        r.statusの#はリクエストHU 200の結果を返します 
        r.resonの#1 の説明 
        DIR(rは)すべての方法を取得し、これらのすべてのオブジェクトは、メソッド有する 
        r.headersの#はヘッダ情報取得
        
            
XPathは言語の情報を見つけるためにXML文書である 
概念を
    ノードの
        要素、属性、テキスト、共同名前空間ドキュメント(ルート)ノード
    間のノードの関係
        、親
        、子
        の同胞は、
        先祖
        の子孫の
    表現    
     //は、        任意のサブノードから選ぶ
     /         ルートからカット選択のポイント現在のノードから選択現在のノードの親
    @プロパティを取ります

 

おすすめ

転載: www.cnblogs.com/xupanfeng/p/11706108.html