跑通CogView教程

入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。

目录

一、代码下载

二、环境配置

1、输入命令

2、安装apex

三、下载 image tokenizer——vqvae_hard_biggerset_011.pt

四、下载模型

五、准备input的文字

六、运行

1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足

2、报错/bin/bash^M:bad interpreter:No such file or directory

七、结果


一、代码下载

GitHub - THUDM/CogView: Text-to-Image generation. The repo for NeurIPS 2021 paper "CogView: Mastering Text-to-Image Generation via Transformers".


二、环境配置

我是在linux下实现的

1、输入命令

这里要注意pytorch的安装要和cuda的版本相匹配

pip install -r requirements.txt

2、安装apex

这里要注意不是pip install apex,是NVIDIA的apex

git clone https://github.com/NVIDIA/apex.git

然后

cd apex

然后

pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

这里如果安装失败的话可以考虑一下是不是因为pytorch与cuda版本不符

补充:验证pytorch与cuda版本是否相符的方法

import torch
print(torch.cuda.is_available())

如果输出True则OK啦。


三、下载 image tokenizer——vqvae_hard_biggerset_011.pt

输入以下命令

wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt

四、下载模型

下载地址resource

模型说明

 把它扔上linux服务器后,输入以下命令解压

rar x cogview-{base, sr, caption}.tar -C pretrained/cogview/

五、准备input的文字

新建input.txt,将文本(每行一个)写入其中


六、运行

输入以下命令

./scripts/text2image.sh --debug

这里有几个注意点

1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足

解决方法一:

cd ../
sudo chmod 777 CogView 

如果还不行的话——解决方法二:

chmod u+x ./scripts/text2image.sh

2、报错/bin/bash^M:bad interpreter:No such file or directory

这个的原因是代码在window上编辑过,变成了dos格式的文件——换行符与unix格式的文件不同。

查看是否是这个原因的方法——输入以下命令

cat -A ./scripts/text2image.sh

从显示结果可以判断,dos格式的文件行尾为^M$,unix格式的文件行尾为$。

如果判断确实是这个问题,可以用以下命令使dos格式的文件转换为unix格式的文件。

dos2unix ./scripts/text2image.sh

使用这条命令的前提是要装dos2unix——安装命令如下

sudo apt install dos2unix

七、结果

我是用cogview-base模型文字生成图片,生成的图片默认在samples_text2image文件夹中。

虽然很神奇,但是cogview-base的效果不太好(如果是我哪里步骤不对什么的阿巴阿巴导致的效果不好,麻烦提醒我一下,谢谢),感觉还是需要自己加数据继续训练。

输入“天鹅在吃面包”

生成:emmm(第四张emmm脑袋嘞?)


猜你喜欢

转载自blog.csdn.net/weixin_55073640/article/details/126091247