[クローラーのヒント]相対パスの絶対パスへのワンクリックURL

記事のディレクトリ

問題シナリオ

同様に、People-Science Channelは、クローラーが記事のリストに出会うときにURLがケースの絶対パスです。詳細ページをクロールするためのこの直接アクセスは、直接404の結果ではないため、スプライスまたはURLURLが必要です。詳細ページのURL。
ここに画像の説明を挿入

加工方法

これに対処する方法はたくさんありますが、これが最も簡単な方法の1つです。

# 加载第三方包
page_url = 'http://society.people.com.cn/'

new_url = '/n1/2021/0209/c1008-32026861.html'

new_full_url = parse.urljoin(page_url, new_url)

print(new_full_url)

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_20288327/article/details/113771985