港大、南大、清华抢先开源「复刻」版DragGAN，开箱即用！ - 代码天地

港大、南大、清华抢先开源「复刻」版DragGAN，开箱即用！

企业开发 2023-06-04 19:20:51 阅读次数: 0

来源 |新智元

还记得前几天发布的DragGAN吗？

没错，就是那个「轻轻点两下」1秒修图的工具。

▲拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！

▲搞不好，「让大象转个身」这个远古PS段子，可能就要成真了

这个AI修图工具演示视频一经发布，瞬间在国内外火得一塌糊涂。

许多网友纷纷直呼，「PS不存在了」。

还没几天，DragGAN非官方实现竟能上手试用了。这一功能已经被集成到InternGPT中，界面长这样↓

▲体验地址：https://igpt.opengvlab.com/

没想到，演示入口一开放，直接被挤爆。

大模型研究测试传送门

ChatGPT传送门（免墙，可直接测试）：
yeschat

GPT-4传送门（免墙，可直接测试，遇浏览器警告点高级/继续访问即可）：
Hello, GPT4!

官方演示

从官方放出的演示视频来看，再现的DragGAN效果绝了。

咧嘴笑

先是怎么把一个没笑的人p笑。只要选中两个嘴角，直接Drag就好了。

可以看到，最终生成的结果毫无违和感。因为面部肌肉也在一起变化，不是单纯的咧嘴。

合上嘴

脸部编辑

这个瘦脸功能大家就太熟悉了，选中两个脸蛋往里挤，输出还是非常自然的。

男性瘦脸。不过这个有点瘦过了，输出结果一眼假，下巴太尖了。

这个必须强推！植发！多少秃头人士的福音。

不过从输出结果看，就算选中额头那里，也是全部地方的毛发等比例增长，最后的结果有点像美猴王。

转脸

脸部转动也是一个很实用的功能，补齐的部分非常自然。

其它功能

除了小范围的修图，InternGPT本身还有很多其它可以进行的亮眼操作。

移除遮盖的对象

单击想要在图片中进行操作的部分，在prompt中输入「移除」就可以了。

图像生成

这个功能比较有意思，先上传一张图片，输入prompt让DragGAN分割，然后再输入一个prompt生成想要的图片。

露出黑脚了？（不是）

视频高光解说

用prompt还可以一键剪辑视频。

交互式视觉问答

甚至识别完图片上的信息还能联网直接查询。

交互式图像生成

随手的涂鸦都能一键变成美图。

反正看完这些功能小编是真震惊了。所有功能就突出两个特点：「傻瓜式操作，且究极好用」。

这谁能不爱？

技术实现

看了这么多酷炫的功能，那么这个InternGPT到底是什么？

InternGPT（简称iGPT）/InternChat（简称iChat）是一种基于指向语言驱动的视觉交互系统，用户可以通过点击、拖动和绘制与ChatGPT进行互动。

与依赖纯语言的现有交互系统不同，通过整合指向指令，iGPT显著提高了用户与聊天机器人之间的沟通效率，以及聊天机器人在视觉为中心任务中的准确性，尤其在复杂的视觉场景中更是如此。

论文地址：
https://arxiv.org/pdf/2305.05662.pdf

下图就是InternGPT的整体架构。

我们可以看到，这个GPT既可以处理图像、视频，也可以处理语音、文字。

对于图像或视频输入，InternGPT就会用SAM（图像分割模型）、OCR（图像识别模型）等等进行处理。

在识别出地理位置、物品或者线条之后，还有一整个工具箱进行进一步处理，其中都是我们耳熟能详的工具。

比如BLIP（音频）、Stable Diffusion（图像）、Pix2Pix（图像翻译）等等。

同样地，对于文字或者语音输入，InternGPT就会调用GPT-4、LLaMA等模型或工具进行处理，后续同样有一整个工具箱。

▲InternGPT的整体架构

使用提示

而在使用过程中，整个流程也是非常方便的。

用户在图片上传成功后，可以发送如下消息与iGPT进行多模态相关的对话：

"what is it in the image?" or "what is the background color of image?".

同样，用户也可以交互式地操作、编辑或者生成图片，具体如下：

点击图片上的任意位置，然后按下 Pick 按钮，预览分割区域。也可以按下 OCR 按钮，识别具体位置处存在的所有单词；
要在图像中删除掩码区域，可以发送如下消息：

“remove the masked region”

要在图像中替换掩码的物体为其他物体，可以发送如下消息：

“replace the masked region with {your prompt}”

想生成新图像，可以发送如下消息：

“generate a new image based on its segmentation describing {your prompt}”

想通过涂鸦创建新图像，按下 Whiteboard 并在白板上绘制。绘制完成后，需要按下保存按钮并发送如下消息：

“generate a new image based on this scribble describing {your prompt}”

网友评论

那个令人震惊的DragGAN现在有一个非官方的版本。正式版本将在6月发布，这只是未来的预览。

DragGAN已经集成到InternGPT了，这么快就出来了，修图神器。

参考资料

[1] https://igpt.opengvlab.com/

猜你喜欢

转载自blog.csdn.net/xixiaoyaoww/article/details/130952103

港大、南大、清华抢先开源「复刻」版DragGAN，开箱即用！

GAN重出江湖！李白实验室抢先开源「复刻」版DragGAN

南大浙大清华保研经验

Pigsty：开箱即用的开源数据库发行版

Confidential Containers发布0.5.0版本，龙蜥将基于八大特性构建开箱即用的机密容器解决方案

精选开源电商系统，开箱即用

jquery+echarts+html 数据可视化大屏展示模板 [ 获取源码，开箱即用 ]

js+html+css+echarts实现大屏数据可视化模板 [开箱即用]

DragGAN开源了，扩散模型版的DragDiffusion也来了！

2019年保研经验：清华计算机系、清华软件、清华深圳、南大lamda

南大机试题

南大复试资料

开源推荐 - EAdmin开箱即用的后台UI框架

EasyCV开源｜开箱即用的视觉自监督+Transformer算法库

xijs, 一款开箱即用的开源工具库

马化腾2015港大演讲。

DragGAN重磅开源！扩散模型版的DragDiffusion也来了！

websoket封装版参数配置化开箱即用

Unity3D与iOS的交互简单版开箱即用

android 抢先开机启动程序

650亿参数，训练飙升38%！LLaMA基础大模型复刻最佳实践开源，GitHub已获30k星

Cropper 开箱即用

开箱即用instantbox

开箱即用的Dubbo模版

开箱即用的SpringBoot模板

Meetup 直播预告｜助力企业数字化转型，8 大微服务&容器开源实践亮点抢先看

【ChatGLM-6B】清华开源的消费级显卡大语言模型，本地部署与测试

清华大学联手字节跳动，开源听觉大语言模型 SALMONN

清华开源语言大模型ChatGLM3部署实战

【建议收藏】ChatGPT 联网版抢先体验，学会这 8 大高阶实用技巧，让你秒上手！

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)