
InternGPT视觉交互系统
声明:该文章由作者(许诺余生)发表,转载此文章须经作者同意并请附上出处(0XUCN)及本页链接。。
InternGPT(简称 iGPT) / InternChat(简称 iChat) 是一种基于指向语言驱动的视觉交互系统,允许你使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。
InternGPT 的名称代表了 interaction(交互)、nonverbal(非语言)和 ChatGPT。与依赖纯语言的现有交互系统不同,通过整合指向指令,iGPT 显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在视觉为中心任务中的准确性,特别是在复杂的视觉场景中。
此外,在 iGPT 中,采用辅助控制机制来提高 LLM 的控制能力,并对一个大型视觉 - 语言模型 Husky 进行微调,以实现高质量的多模态对话(在 ChatGPT-3.5-turbo 评测中达到 93.89% GPT-4 质量)。
主要功能使用:
在图片上传成功后,你可以发送如下消息与 iGPT 进行多模态相关的对话:"what is it in the image?" or "what is the background color of image?".
你同样也可以交互式地操作、编辑或者生成图片,具体如下:
点击图片上的任意位置,然后按下 Pick 按钮,预览分割区域。你也可以按下 OCR 按钮,识别具体位置处存在的所有单词;
要在图像中 删除掩码区域,你可以发送如下消息:“remove the masked region”;
要在图像中 替换掩码区域的物体为其他物体,你可以发送如下消息:“replace the masked region with {your prompt}”;
想 生成新图像,你可以发送如下消息:“generate a new image based on its segmentation describing {your prompt}”;
想通过 涂鸦创建新图像,你应该按下 Whiteboard 按钮并在白板上绘制。绘制完成后,你需要按下 保存 按钮并发送如下消息:“generate a new image based on this scribble describing {your prompt}”。
系统概览:
主要功能
A) 移除遮盖的对象
B) 交互式图像编辑
C) 图像生成
D) 交互式视觉问答
E) 交互式图像生成
F) 视频高光解说
安装
基本要求
Linux
Python 3.8+
PyTorch 1.12+
CUDA 11.6+
GCC & G++ 5.4+
GPU Memory > 17G 用于加载基本工具 (HuskyVQA, SegmentAnything, ImageOCRRecognition)
安装 Python 的依赖项
pip install -r requirements.txt
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 总书记的“家常话”格外暖心 7904459
- 2 妻子抄起油桶砸丈夫 网友却一致好评 7808346
- 3 卖不完的月饼都去哪儿了 7712747
- 4 中秋遇国庆 祝愿家国共团圆 7616184
- 5 女子回老家走7家亲戚 后备箱被塞满 7523975
- 6 收花生找到姥姥丢了12年的金镯子 7428081
- 7 网警提醒:假期过半安全不松懈 7333165
- 8 波兰女子只吃水果 去世前体重仅44斤 7232034
- 9 国庆中秋假期第6天你在干什么 7138320
- 10 丈母娘哽咽给新娘喂饺子 新郎秒变脸 7039719