一般都是在python下对kaggle的数据集进行处理,这里就默认已安装过python并且可以使用pip进行python库的安装
一、安装kaggle库
使用 pip install kaggle
安装kaggle库
二、进入自己的kaggle账户
没有kaggle账户的话需要注册一个,邮箱注册即可,但是在验证环节似乎需要翻墙才能够成功。
三、选择Create New API Token
这时会下载一个.json文件
四、将.json文件移到.kaggle文件中
我的.kaggle文件所在位置如下图所示,网上有其他贴子说每个人的.kaggle文件夹所在位置可能都不一样,但我觉得大部分的都在C:\User\<用户名>
下,下图是.kaggle文件夹在我电脑上的路径
五、接收Rules
需要接受一些认证信息才可下载该比赛中使用的数据信息,否则可能会出现401、403的错误
六、下载数据
打开cmd,复制Data页面中的API信息(直接点击API)
将复制的API信息粘贴到cmd中运行即可
常见问题
1.手机号认证出现错误
最开始的认证信息可能是手机认证,需要verify手机号,可能会出现提示输入错误格式,这里我参考了这个博客https://blog.csdn.net/Tomxiaodai/article/details/80167765,亲测有效。
需要注意的就是:在验证环节,需要翻墙
2.下载数据出现错误:403 - Forbidden
这个就很有可能是:没有在比赛界面的Rules中进行Accept
3.下载数据出现错误:401 - UnAuthorized
可能出现的问题:
-
没有在比赛界面的Rules中进行Accept
-
多次 Create New API Token,即多次下载了Kaggle.json文件,但是没有将这个.json文件在 .kaggle文件夹中进行更新
注:【自己掉过的坑】
如果多次create新的API,每次都需要将新下载的 .json文件替换掉旧的.json文件
4.下载数据太多,但是默认是下到C盘的.kaggle文件夹所在文件,C盘太小怎么办?
这一次我所使用的数据集就有96GB,我可怜的C盘哪里有足够的地方供它,这个时候,就需要更改kaggle的配置了,在下载数据集之前在cmd中输入kaggle config set -n path -v <你想要存储的位置>
可以将数据集的下载地址进行更改。
这个时候再下载所要使用的数据集,就可下载到我们为它指定的地方了。
作者:不安分的_安娜
链接:https://www.jianshu.com/p/c8896f90bd9b
来源:简书