Pythonは百度でセカンドレベルドメインのリストを取得します

#のコード= UTF-8 
インポートのRE
 インポート要求
 から urllibはのインポート解析
 UA信息: 
ヘッダー= {
     ' のUser-Agent '' のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 57.0 .2987.133サファリ/ 537.36 ' 
} 
#1 クォート()编码;にunquote()解码。
デフ(サイト、a、b)はbaidu_get_towdn:
    サイト = []の
     ために範囲(A、B):   10页为例(0,10) 
        I =私は10 * 
        URLを =' https://www.baidu.com/s?wd= ' + parse.quote(サイト)+ ' &PN = ' + STR(I)     设定URL请求 
        応答= requests.get(URL、ヘッダ=ヘッダ) .text    GET请求 
        baidudomain = re.findall(' スタイル= "テキスト装飾:なし;"。?>(*)/ ' 、応答)
        サイト + = リスト(baidudomain)
    サイト =リスト(セット(サイト))  セット()实现去重
    印刷(サイト)
     印刷" サイトの\ nの数は%dです"%のLEN(サイト))
     のためのサイト:
         プリント(I) 
        
baidu_get_towdn( 'サイト:baidu.cn'、0,10)
        

 

おすすめ

転載: www.cnblogs.com/wjbk/p/11300717.html
おすすめ