長い時間がないストレート対象に、ブログを書きません。
私たちは、それが検索結果にリンクする方法を抽出するために、Google検索を頻繁に使用します
Google検索結果のURLを抽出、F12は、コンソール側に来た;、次の文を貼り付けてください。
varタグ= document.getElementsByClassName(R '')。 以下のために(; I <tag.length; VAR iが0 = I ++){ VAR =タグ[I] .getElementsByTagName( "")。 console.log([0] .HREF) }
抽出された、。url.txtに保存されたURLが検出されると、ドメイン名、1行につき1つは、再空白行を通過します
インポートIO インポートshutil readPath = 'oldurl.txt' writePath = 'url.txt' lines_seen =セット() outfiile = io.open(writePath、 '+'、= 'UTF-8'をコードする) = io.open F(readPath 、R ''、= 'UTF-8')をコード Fの行のための: lenはない場合(線): 継続 行ないlines_seenであれば: outfiile.write(ライン) )lines_seen.add(ライン
その後、バッチテスト
ok.txt通常のドメイン名
red.txtは、シールドされたドメイン名とリンクがあります
#!/ usr /ビン/ ENVのpython #coding:UTF-8 インポートOS、urllibは、linecacheの インポートSYS インポート時間 インポート要求は =リスト()は、結果 strxx = ' "コード": "102"' HTML = '' linecacheにおけるyのを。 updatecache(r'url.txt '): トライ: ヘッダー= {'ユーザーエージェント':'のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 63.0.3239.132サファリ/ 537.36 [ } #response = urllib.urlopen(X) #html = response.read() X = 'http://wx.rrbay.com/pro/wxUrlCheck.ashx?url=' + Y 応答= requests.get(X、ヘッダ=ヘッダ) のhtml = response.text 時間。 例外、Eを除く: HTML = '' 印刷E strxx場合HTMLで: 印刷'OK' プリントは、x (ok.txt ' '')オープンとF'として: f.write(Y) 他: 印刷'エラー:' Yを印刷する HTML = '' (' '' red.txt)オープンとF'として: f.write(Y)