三日目に仕事で来ました

'' 'IMDBのTOP250クロール
最初のページ:
https://movie.douban.com/top250?start=0&filter=を
2ページ目:
https://movie.douban.com/top250?start=25&filter=
' '
インポート要求
のインポートを再
#クライミングフィルムスプライシングアドレスURLの
NUM = 0
:(10)にラインレンジ用
    URL =' https://movie.douban.com/top250?start=%s&filter=「%(NUM)
    NUM = 25 +
#Print(URL)
のデータ取得要求を送信するために#スプライスさULRアドレス
応答= requests.get(URL)
印刷(response.text)テキストデータ#の取得
#3の解析と抽出データ
#映画名、映画アドレス、映画のスコア、評価者の数
は、データを抽出したい#のre.findall(「テキストマッチングルール、」「マッチングテキスト」、「パターンマッチング」)#パーステキストデータ
#*:?フィルタ不要なデータを目的のデータが表示されるまで
(。*?)#を:所望のデータを抽出
#マッチングルールを
#<DIV CLASS = "アイテム">。*?<a href="(.*?)">。*?<スパンクラス= "タイトル">(。*?)</ span>を。*?<スパンクラス= "rating_num"プロパティ= "V:平均"(。*?)?> </ span>の*の<span>(。*?)人评价</ span>の
データ= re.findall( '<DIV CLASS =」アイテム">。*?<a href="(.*?)">。*?<スパンクラス="タイトル">(。*?)</ span>を。*?<スパンクラス=" rating_num」プロパティ= "V:平均"(。*?)。?(。*?)> </ span>の*の<span>人评价</ span>の」、response.text、re.S)#re.S忽略换行
#の印刷(データ)
のデータでD用:
    #プリント(d)の

    URL、名前、ポイントは、= dはカウント

    movie_data = ''」
    电影名称:%sの
    电影地址:%sの
    电影评分:%sの
    评价人数:S%
    \ N-
    ''「%(名前、URL、ポイント、COUNT)

    印刷(movie_data)

    #4.保存したデータ
    #1 A:追加
    オープンと( '豆瓣の.txt'、 ''、エンコード= 'UTF-8')、Fとして:
        f.write(movie_data)

おすすめ

転載: www.cnblogs.com/fage5113/p/11588560.html