python--小さな爬虫類ケース

インポートから urllib.request インポートurlopen 

DEF GETPAGE(URL):
    応答 = urlopen(URL)
     リターン。response.read()(デコード' UTF-8 ' 

defでparsePage(S):
    RET = re.findall(
         ' <DIVクラス= "アイテム">。*?<DIV CLASS = "PIC">。*?<EM。*?>(?P <id>の\ D +)。*?<スパンクラス= "タイトル">(?P <タイトル>。*?)</ span>を' 
       ' 。*?<スパンクラス= "rating_num"。*?>(?P <rating_num>。*?)</ span>を。*?<span>の(?P < comment_num>。*?)评价</ span>を"、S、re.S)が
     返すRET 

デフ)、メイン(numは: 
    URL = ' https://movie.douban.com/top250?start=%s&filter= 'NUMの
    response_html = GETPAGE(URL)
    RET = parsePage(response_html)
     印刷(RET)

COUNT = 0
 のための I におけるレンジ(10):    10 
    メイン(COUNT)
    COUNT + = 25 ウェブからURLコードの下に取得する
#のバイトデコードを- > UTF-8文字列に一致するように私のウェブコンテンツですマッチとRET = re.findall(定期的に、文字列)#retは、物の組成と一致するように、すべてのコンテンツのリストです

 

おすすめ

転載: www.cnblogs.com/jsit-dj-it/p/11456005.html