如何下载Kaggle数据集?

一般都是在python下对kaggle的数据集进行处理,这里就默认已安装过python并且可以使用pip进行python库的安装

一、安装kaggle库

使用 pip install kaggle安装kaggle库

二、进入自己的kaggle账户

没有kaggle账户的话需要注册一个,邮箱注册即可,但是在验证环节似乎需要翻墙才能够成功。

三、选择Create New API Token

这时会下载一个.json文件

四、将.json文件移到.kaggle文件中

我的.kaggle文件所在位置如下图所示,网上有其他贴子说每个人的.kaggle文件夹所在位置可能都不一样,但我觉得大部分的都在C:\User\<用户名>下,下图是.kaggle文件夹在我电脑上的路径

五、接收Rules

需要接受一些认证信息才可下载该比赛中使用的数据信息,否则可能会出现401、403的错误

六、下载数据

打开cmd,复制Data页面中的API信息(直接点击API)

将复制的API信息粘贴到cmd中运行即可

常见问题

1.手机号认证出现错误

最开始的认证信息可能是手机认证,需要verify手机号,可能会出现提示输入错误格式,这里我参考了这个博客https://blog.csdn.net/Tomxiaodai/article/details/80167765,亲测有效。

需要注意的就是:在验证环节,需要翻墙

2.下载数据出现错误:403 - Forbidden

这个就很有可能是:没有在比赛界面的Rules中进行Accept

3.下载数据出现错误:401 - UnAuthorized

可能出现的问题:

  1. 没有在比赛界面的Rules中进行Accept

  2. 多次 Create New API Token,即多次下载了Kaggle.json文件,但是没有将这个.json文件在 .kaggle文件夹中进行更新

注:【自己掉过的坑】

如果多次create新的API,每次都需要将新下载的 .json文件替换掉旧的.json文件

4.下载数据太多,但是默认是下到C盘的.kaggle文件夹所在文件,C盘太小怎么办?

这一次我所使用的数据集就有96GB,我可怜的C盘哪里有足够的地方供它,这个时候,就需要更改kaggle的配置了,在下载数据集之前在cmd中输入kaggle config set -n path -v <你想要存储的位置>可以将数据集的下载地址进行更改。

这个时候再下载所要使用的数据集,就可下载到我们为它指定的地方了。

作者:不安分的_安娜
链接:https://www.jianshu.com/p/c8896f90bd9b
来源:简书

猜你喜欢

转载自blog.csdn.net/weixin_41524411/article/details/89710273