链接拼接的方法(用于解决同一个脚本返回两种不同的url链接的问题)

上图所示

爬虫返回的链接有一部分带有http前缀,有一部分没有,且也不知道具体哪些链接会出现没有前缀的情况

后面如果通过返回链接进行再次访问,那么肯定会出现报错的问题

思路:

判断 返回值内是否包含某内容

比如判断返回值是否含有www

如果有,则跳过,没有则加上前缀 构造链接

代码如下:

if "www" in url:
            url2 = url
        else:
            url2 ="https://www.xxx.com" +url

当返回链接包含www的时候,链接不需要拼接,直接访问

当返回链接不包含www的时候,链接需要拼接,带上前缀后再访问

猜你喜欢

转载自www.cnblogs.com/becks/p/11335575.html