自動車爬虫類館(正規表現)

は/ usr / binに/ envをPythonの!- * -コーディング:UTF-8 - * - 要求:ページのソースをダウンロードするには、同等物、urlopen() HTMLを解析美しいスープは、再定期的な部分を置き換えるのHTML 。BeautifulSoup()検索( "A")
のインポートは、要求
 のインポートBS4を
 から BS4 インポートBeautifulSoupの

車のホームホームページのソースコードを取得するには
#のurlopen(URL).read.decode 
main_page_content = requests.get(HTTPS:// WWWを。 autohome.com.cn/weifang/ " の.text)
BS4の解決へページのソースコード 
main_page = BeautifulSoup(main_page_content、" html.parser #は、タグに配置することができます 
main_div = main_page.find(名前= " のdiv "、attrsに= { " クラス"" 人-コンテンツ" })
main_ul = main_div.find(名前= " UL "、attrsに= { " クラス"" リストテキスト" })
main_a_lst = main_ul.find_all(" A "これは、リスト、タグのリストである 
N- = 1。ためmain_a_lst:
    は、タグから属性を取得 
    one_page_url = "
HTTPS:" + a.get(" HREF " 、印刷" ====> "one_page_url) 
    one_page_content = requests.get(one_page_url)の.text 
    one_page_content = one_page_content.replace(" </ BR> """ 替换掉所有的</ BR> 
    one_page = BeautifulSoup(one_page_content、" html.parser " 
    img_lst = one_page.find(" DIV "、ATTRS = { " クラス"旅アイテムリスト"})Find_all( " IMG " のための IMG img_lst:
         のsrcの画像取得 
        DOWNLOAD_URL = img.get(" データ・オリジナル" IF  ません:DOWNLOAD_URL 
            DOWNLOAD_URL = img.get(" SRC 印刷( DOWNLOAD_URL)
        ダウンロード写真 
        F =オープン(" IMG /カーホーム絵s.jpg%"%のn-、MODE = " WB " 
        f.write(requests.get(DOWNLOAD_URL).content)
        f.close()
        N- = + 1 N-
         印刷あなたの家の車からの成功とは、絵を盗みました

 

おすすめ

転載: www.cnblogs.com/tengteng0520/p/11275530.html