問題シナリオ
同様に、People-Science Channelは、クローラーが記事のリストに出会うときにURLがケースの絶対パスです。詳細ページをクロールするためのこの直接アクセスは、直接404の結果ではないため、スプライスまたはURLURLが必要です。詳細ページのURL。
加工方法
これに対処する方法はたくさんありますが、これが最も簡単な方法の1つです。
# 加载第三方包
page_url = 'http://society.people.com.cn/'
new_url = '/n1/2021/0209/c1008-32026861.html'
new_full_url = parse.urljoin(page_url, new_url)
print(new_full_url)