剣の小説クロール

A:クローラウェブ解析

クロールウェブサイト:https://doupocangqiong1.com/148/1.html

1.まず、私は、ビューのページのソースを見て、小説は、コンテンツタイトルだけではなかったことを発見しました

 

 

 

 

 

2.その後、私は、次の図に、F12に応じてポイントネットワークを閲覧・が、これは、負荷表示にアヤックスで、内部の内容を見つけ

 

 パラメータで3.更新の外観、オリジナルのデジタル+1の変化の各、私が回すの方法を見つけたので、

 

 4.ここでは、直接Iコード分析分析に基づいて

インポート要求
lxmlのインポートetreeから
インポートOSの
再インポート

DEF bc_url(tltle、REQ1):
保存小说
ファイル名= 'D:/小说/'
でない場合os.path.exists(ファイル名):
os.mkdir(ファイル名)
が開いています(ファイル名+ tltle + "TXT"、 ''、コード= "UTF-8")Fとして:
f.write(REQ1)
f.close()

DEF GET_URL():
URL1 = 'HTTPS://doupocangqiong1.com/ novelsearch /チャプター/ transcode.html '
#构建翻页请求
Iの範囲内(1,883)のために:
URL = 'HTTPS:' HTML' //doupocangqiong1.com/148/'+str(I)+
ヘッダー= {
'クッキー':「__guid = 99673995.150984782037069900.1576402368997.2383。Hm_lvt_e331ad8aeb2484e93d26fbc8a8f7c7e9 = 1576402370; Hm_lpvt_e331ad8aeb2484e93d26fbc8a8f7c7e9 = 1576402495; monitor_count = 7' 、
'ホスト': 'doupocangqiong1.com'、
'起源': 'https://doupocangqiong1.com'、
'リファラー': 'https://doupocangqiong1.com/148/4.html'、
"ユーザーエージェント': 'のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリ様KHTML)クローム/ 63.0.3239.132サファリ/ 537.36'
}
データ= {
'サイトID': '0'、
'入札' : '148'、
'CID':STR(I + 885153)、




= req.apparent_encoding req.encoding
HTML = etree.HTML(req.text)
タイトル= html.xpath [0]( '// DIV / A / @タイトルの/ H1 [クラス= "タイトル" @]')
タイトル=再.SUB(R '[* "" ?!@、。?。、]'、 ''、タイトル)#1 タイトル内の削除特殊文字
REQ1 = requests.post(URL1、データ=データ、ヘッダ=ヘッダ).json ()[ '情報']
REQl re.sub =( '<BR>'、 ''、REQl)
印刷'(' +タイトルクロールされている)
を除い:
印刷( '要求の失敗')
bc_url(タイトル、REQl)



IF == __name__「__main__」:
GET_URL()


のコードは、参考のためにのみ、どのようなアドバイスをコメント欄のコメント

  

おすすめ

転載: www.cnblogs.com/anpei/p/12067841.html