クレソン帳データの収集

データから収集された1、クレソンウェブクローラは、データベースはMongoの、データの中に導入モンゴに接続され、コードは以下の通りであります:

  アクセスURL 
#をアクセスするために使用要求
のインポートPANDAS ASをPD
 インポート要求
 のインポートpymongo
 インポート


U = ' https://book.douban.com/tag/哲学' 
R = requests.get(URL = U) 

解析URLの
#の使用をBeautifulSoup URLを解析
から BS4 インポート  BeautifulSoup 
スープ = BeautifulSoup(r.text、' lxmlの' 
urlist = []
 のための I における範囲(7 ):
    urlist.append(' https://book.douban.com/tag/哲学開始= ' + STR(20 * I)+ ' &タイプ= T ' 
、N = 0
 のための U urlist:
    R = requests.get(URL = U)
    スープ = BeautifulSoup(r.text、' lxmlの' 
    soup.find(' DIV '、ID = " コンテンツ" ).h1.text 
    LIS = soup.find(' UL '、class_が= ' 被験者リスト').find_all (""についてのLi LIS:
        DIC = {}      、格納されたデータを空の辞書を作成 
        DIC [ ' 題名' ] = li.h2.text.replace('  ''').replaceを(' \ N- ''' 
        DIC [ ' その他の情報' ] = li.find(' DIV '、class_が= " パブ").text.replace('  ''').replace(' \ N- '''
        DIC [ ' 评分' ] = li.find(' スパン'、class_が= " rating_nums " )の.text 
        DIC [ ' 评价人数' ] = re.search(R ' (\ D *)人'、li.find(' スパン'class_が= " PL ").text.replace('  ' '').replace(' の\ n ''' ))。グループ(1 
        データテーブル。     insert_one(DIC)   各取得されたデータストレージ 
        N - + = 1枚の印刷
        "データ取得%Iの成功"%のN-)

MyClientという = pymongo.MongoClient(" // localhostを::MongoDBの27017 " 
DB = MyClientという[ ' クレソンのデータ収集' ] 
DataTableの DB [= ' テスト' ]
     #は接続モンゴを作成します。データベース接続、およびデータベースクレソンデータの取得、およびテスト用のフォームを作成します
クレソンデータ爬虫類

2、モンゴのインストール・設定します。https://www.cnblogs.com/zhoulifeng/p/9429597.html#4242074

3、ROBO 3Tインストールします。https://www.cnblogs.com/tugenhua0707/p/9250673.html

おすすめ

転載: www.cnblogs.com/wangchenghua/p/11278008.html