まず、常識
インポート要求 #の鍛造ブラウザ要求:モジュールの効果は レスポンス= requests.get(URLへのアクセスを) から BS4 インポートBeautifulSoupの #1 のHTMLのオブジェクトに解析された内容 BS4 = BeautifulSoup(response.text、「html.parser 」) #のメソッド検索 bs4.find(名前= 「タグ名」、attrsには= { 「属性名:」属性「}) #は、すべての検索find_all #は、コンテンツを取得 #のデータバイトのオリジナルコンテンツタイプを取得するためのコンテンツを(画像、動画) #のテキストを取得します
第二に、例えば、
インポート要求 から BS4 インポートBeautifulSoup インポートOSの #の パスは= os.path.join(os.getcwd()、' IMG ' ) #1鍛造ブラウザが要求した レスポンスを= requests.get(" ...... " ) response.encoding = ' GBK ' #2。htmlページ取得したファイル #印刷(response.text) #3 BS4オブジェクトに解析されたhtmlファイル使用 BS4はBeautifulSoup(response.text、= ' html.parser ' ) #の印刷を( BS4) DIV = bs4.find(名= ' DIV '、attrsに= { ' ID ':' 自動チャンネル-lazyload-Articleこの記事だった' }) #の印刷(DIV) li_list = div.find_all(名前= ' 李' ) についてリーでli_list: 印刷(' = ' * 120 ) #プリント(LI) H3 = li.find(名前= ' H3 ' ) の場合 ではないH3: 継続 プリント(h3.text)= li.find(名= ' A ' ) HREF = a.get(' のhref ' ) プリント(' HTTPS:{} ' .format(HREF)) IMG = li.find(名前= ' IMG ' ) SRC = img.get(' SRC ' ) SRC = ' HTTPS:{} ' .format(SRC) プリント(SRC) FILE_NAME = src.rsplit(' / '、maxsplit個である= 1)[1 ] #の印刷(FILE_NAME) FILE_PATH = os.path.join(パス、FILE_NAME) #1 印刷(FILE_PATH) #SRCアドレスを再鍛造GET要求である = RET requests.get(SRC) #の内容は、元のデータ取得することです #1 (ret.content)を印刷する #画像を保存 オープン(FILE_PATH、と' WB ' F AS): f.write(ret.content)