将GHTorrent中的CSV文件导入mysql-workbench

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_40308540/article/details/84346684

下载GHTorrent数据:打开链接http://www.ghtorrent.org/,点击菜单栏”Downloads“,选择数据版本并下载,我选的是当前最新版本2018-11-01,压缩包大约85GB+,解压缩后300GB+,提醒大家提前预备号足够的空间。

注意:GHTorrent中的文件需要在linux系统下操作,你也可以在windows下安装虚拟机,怎样都行,我是选择安装的双系统。而且由于我的GHTorrent数据是在安装ubuntu双系统前下载的,所以我现在是在ubuntu系统下操作windows系统的文件。而且到现在为止还没出现问题,所以有同样困惑的小伙伴不用担心了。

由于是第一次接触GitHub以及MySQL,所以一切都是陌生的,每一个步走的都如履薄冰,因此把我走的路整理下来记录怕自己忘了,也顺便分享给大家。

再次强调是在ubuntu系统下操作的

操作步骤:

1. 在终端下定位到GHTorrent数据所在路径,我的路径是/media/liubc/Data/GHTorrent_Dataset/mysql-2018-11-01/mysql-2018-11-01/

2. 进入mysql模式:命令‘mysql -uroot -p’ 这里会提示你输入密码

3. 创建用户gtuser,并设置其密码为1111,使其能够访问创建的gt_restore数据库。命令依次为:

(注意:由于是在mysql模式下,因此前面显示的会是mysql>,这个不需要手动输入,但是最后的分号一定要输入)

mysql>create user gtuser@'localhost' identified by '1111';

mysql>create user gtuser@'*' identified by '1111';

扫描二维码关注公众号,回复: 4543437 查看本文章

mysql>create database gt_restore;

mysql>grant all privileges on gt_restore.* to 'gtuser'@'localhost';

mysql>grant all privileges on gt_restore.* to 'gtuser'@'*';

mysql>grant file on *.* to 'gtuser'@'localhost';

最后可以使用命令查看数据库是否创建成功。(命令”show databases;”)

4. 开始执行恢复数据操作(这里可以参考目录下的README.md文件,里面讲的就是操作步骤)

在mysql中输入./ght-restore-mysql -u gtusr -d gt_restore -p 1111

这里对应之前创建的用户名,数据库以及密码

5. 了解下载的GHTorrent数据

首先阅读目录的下的README.md文件,根据分别查看schema.sqlindexes.sql以及ORDER文件。(这都是需要重点关注的文件,提前查看会帮你省去很多弯路)

然后查看所有的csv文件

6. 使用source命令先后导入schema.sql文件。indexes.sql文件

命令:mysql>source /xxx/xxx.sql;

7.导入CSV文件这里我选择从workbench中导入文件

选择数据库中的指定table,右击选择”Table Data Import Wizard“,然后在路径下选择对应的CSV文件。

好了,就记录到这里吧,后面有时间再更新~

猜你喜欢

转载自blog.csdn.net/weixin_40308540/article/details/84346684