分享文章
新闻分类
CoF – DeepMind推出的视觉模型思维链
CoF是什么
CoF(Chain-of-Frames,帧链)是DeepMind推出的新概念,类比于语言模型中的“链式思维”(Chain-of-Thought,CoT)。CoF使视频模型能在时间和空间上进行推理,通过逐帧生成视频解决复杂的视觉任务。例如,Veo 3模型用CoF解决迷宫问题、完成对称性任务或进行简单的视觉类比推理,能力类似于语言模型通过符号推理解决问题,CoF是通过生成连贯的视频帧实现视觉推理,展示了视频模型在通用视觉理解方面的潜力。

CoF的主要功能
- 视觉推理:通过逐帧生成视频,CoF能逐步解决问题,例如在迷宫中找到路径、完成对称性任务或进行视觉类比推理。
- 跨时空操作:对视频中的对象进行操作,例如移动、变形或改变对象的属性,同时保持视频的连贯性。
- 通用视觉理解:CoF帮助视频模型理解物理规则、抽象关系及视觉世界的动态变化,实现通用视觉任务的零样本学习。
- 生成连贯视频:CoF确保生成的视频在时间和空间上是连贯的,使模型能生成符合逻辑和物理规则的视频内容。
CoF的技术原理
- 生成模型:CoF依赖大规模的生成模型,模型通过海量数据进行训练,学习视频的时空结构和动态变化。
- 提示驱动:通过自然语言提示(prompt)和初始图像,模型被引导生成符合任务要求的视频。提示帮助模型理解任务目标,初始图像提供视频的第一帧。
- 逐帧推理:模型逐帧生成视频,每一步都基于前一帧的状态和提示进行推理。逐帧生成的方式类似于语言模型中的链式思维(CoT)。
- 物理和逻辑约束:CoF生成的视频需要符合物理规则和逻辑一致性。例如,物体的运动需要符合物理定律,视频中的对象不能违反现实世界的约束。
- 优化和反馈:通过多次尝试和优化,模型能生成更准确的视频。例如,通过多次生成、选择最优结果,提高任务的成功率。
CoF的项目地址
技术论文:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
CoF的应用场景
迷宫求解:CoF能生成视频,展示一个物体如何在迷宫中找到从起点到终点的路径,逐帧规划最优路线。
视觉对称性任务:CoF能生成对称的图案或图像,通过逐帧填充空白部分,完成对称图形的绘制。
物理模拟:模拟物理现象,如物体的运动、碰撞和浮力等,生成符合物理规律的视频。
图像编辑:用在图像编辑任务,例如背景移除、风格转换、颜色化等,通过逐帧生成视频逐步完成编辑。
视觉类比:解决视觉类比问题,例如生成缺失的部分完成一个视觉类比,通过逐帧推理找到正确的解决方案。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675

![一颗小酒:你们要的漫画还原身材2.0 抖音发不了的发这叭[doge] ](https://imgs.knowsafe.com:8087/img/aideep/2021/7/5/2eaac72aa2e0d34df5513af8e11b39cb.jpg?w=204)





利世
