pythonマイクロ文字のドメイン名またはリンクバッチテスト

長い時間がないストレート対象に、ブログを書きません。

私たちは、それが検索結果にリンクする方法を抽出するために、Google検索を頻繁に使用します

Google検索結果のURLを抽出、F12は、コンソール側に来た;、次の文を貼り付けてください。

 

varタグ= document.getElementsByClassName(R '')。

 以下のために(; I <tag.length; VAR iが0 = I ++){ 
        VAR =タグ[I] .getElementsByTagName( "")。
        console.log([0] .HREF)
 }

抽出された、。url.txtに保存されたURLが検出されると、ドメイン名、1行につき1つは、再空白行を通過します

インポートIO 
インポートshutil 
readPath = 'oldurl.txt' 
writePath = 'url.txt' 
lines_seen =セット()
outfiile = io.open(writePath、 '+'、= 'UTF-8'をコードする)
= io.open F(readPath 、R ''、= 'UTF-8')をコード
Fの行のための:
    lenはない場合(線):
        継続
    行ないlines_seenであれば:
        outfiile.write(ライン)
        )lines_seen.add(ライン

その後、バッチテスト

ok.txt通常のドメイン名

red.txtは、シールドされたドメイン名とリンクがあります

#!/ usr /ビン/ ENVのpython 
#coding:UTF-8 
インポートOS、urllibは、linecacheの
インポートSYS 
インポート時間
インポート要求は

=リスト()は、結果
strxx = ' "コード": "102"' 
HTML = '' 
linecacheにおけるyのを。 updatecache(r'url.txt '):
    トライ:
       ヘッダー= {'ユーザーエージェント':'のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 63.0.3239.132サファリ/ 537.36 [ } 
       #response = urllib.urlopen(X)         
       #html = response.read()
       X = 'http://wx.rrbay.com/pro/wxUrlCheck.ashx?url=' + Y 
       応答= requests.get(X、ヘッダ=ヘッダ)
       のhtml = response.text 

       時間。
    例外、Eを除く:
        HTML = '' 
        印刷E 
    strxx場合HTMLで:
        印刷'OK' 
        プリントは、x 
        (ok.txt ' '')オープンとF'として:   
            f.write(Y)
    他:
        印刷'エラー:'         
        Yを印刷する
        HTML = '' ' '' red.txt)オープンとF'として:   
            f.write(Y)

 

おすすめ

転載: www.cnblogs.com/Gemgin/p/12148386.html