使用する爬虫類シンプル

まず、常識

インポート要求
 #の鍛造ブラウザ要求:モジュールの効果は 
レスポンス= requests.get(URLへのアクセスを)
 から BS4 インポートBeautifulSoupの
 #1 のHTMLのオブジェクトに解析された内容 
BS4 = BeautifulSoup(response.text、html.parser #のメソッド検索 
bs4.find(名前= タグ名、attrsには= { 属性名:」属性「}) 
、すべての検索find_all 
#は、コンテンツを取得
#のデータバイトのオリジナルコンテンツタイプを取得するためのコンテンツを(画像、動画)
#のテキストを取得します

第二に、例えば、

インポート要求
 から BS4 インポートBeautifulSoup
 インポートOSの
 #の
パスは= os.path.join(os.getcwd()、' IMG ' 1鍛造ブラウザが要求した 
レスポンスを= requests.get(" ...... " 
response.encoding = ' GBK ' 
2。htmlページ取得したファイル印刷(response.text) 3 BS4オブジェクトに解析されたhtmlファイル使用 
BS4はBeautifulSoup(response.text、= ' html.parser ' #の印刷を( BS4) 
DIV = bs4.find(名= ' DIV '、attrsに= { ' ID '' 自動チャンネル-lazyload-Articleこの記事だった' })
印刷(DIV) 
li_list = div.find_all(名前= ' ' についてリーli_list:
     印刷' = ' * 120 プリント(LI) 
    H3 = li.find(名前= ' H3 ' の場合 ではないH3:
         継続
    プリント(h3.text)= li.find(名= ' A ' 
    HREF = a.get(' のhref ' プリント' HTTPS:{} ' .format(HREF))
    IMG = li.find(名前= ' IMG ' 
    SRC = img.get(' SRC ' 
    SRC = ' HTTPS:{} ' .format(SRC)
     プリント(SRC)
    FILE_NAME = src.rsplit(' / '、maxsplit個である= 1)[1 ]
     #の印刷(FILE_NAME) 
    FILE_PATH = os.path.join(パス、FILE_NAME)
     #1 印刷(FILE_PATH) 
    SRCアドレスを再鍛造GET要求である 
    = RET requests.get(SRC)
    内容は、元のデータ取得することです
    #1 (ret.content)を印刷する
    画像を保存 
    オープン(FILE_PATH、と' WB ' F AS):
        f.write(ret.content)

 

おすすめ

転載: www.cnblogs.com/wt7018/p/11706125.html
おすすめ