ホームリンク新しい家の爬虫類

#のチェーン新しい家の爬虫類
 
** **目標は、今日

クロール最新の領域と対応する価格
`` `Pythonの
インポート要求
 のインポートインポートCSVの

クラスLianjiaSpider(オブジェクト):
     DEF  __init__ (セルフ):
        self.url = " HTTPS:// CQ .lianjia.com / ershoufang / PG {} / ' 
        self.headers = { ' User--エージェント'' のMozilla / 5.0 ' } 

    取得URL 
    DEF get_page(セルフ、URL):
        RES = requests.get(URL、ヘッダー= self.headers)
        HTML =res.content.decode()
        直接调用解析函数
        self.parse_page(HTML) 

    解析数据
    デフparse_page(自己、HTML):

        パターン = re.compile(" <DIV CLASS = "houseInfo"> <スパン*データ。? -el = "地域">(。*?)</a>の。*?<DIV CLASS = "totalPrice"> <スパン>(。*?)</ span>の" 、re.S)
        r_list = pattern.findall (HTML)
        self.write_page(r_list) 

    保存
    DEF write_page(自己、r_list):
        film_list = [] 
        開く(' lianjia.csv ''
            作家 Fなど): = csv.writer(F)
             のための R&LT r_list:
            処理されたデータをタプルとして定義され、 
                T =([1] R&LT [0] .strip()、R&LT + ' ワン' 
                film_list.append(T)
                writer.writerows(film_list)

    DEF メイン(セルフ):
         のためのページの範囲(1,11 ):
            URL = self.url.format(ページ)
            self.get_page(URL)
            を印刷' 印刷されたページ{} ' .format(ページ))


IF  __name__ == "__main__ " 
     クモ = LianjiaSpider()
     spider.main()
` ``

 

おすすめ

転載: www.cnblogs.com/cxiaolong/p/11234872.html
おすすめ