温馨提示:本站为童趣票务官方授权演出订票中心,请放心购买。
你现在的位置:首页 > 演出资讯  > 儿童亲子

视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化

更新时间:2024-10-21 12:08  浏览量:54

机器之心报道编辑:Panda现在正是「文本生视频」赛道百花齐放的时代,而且其应用场景非常多,比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器,比如 OpenAI 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告。文本生视频模型的这些近期应用既有望实现互联网规模级别的知识迁移(比如从生成人类视频到生成机器人视频),也有望打通实现通用智能体的道路(比如用单个策略控制不同环境中不同形态的机器人来执行多种多样的任务)。然而,现实情况是,文本生视频模型的下游应用还很有限,原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。虽然理论上可以通过扩大数据集和模型大小来有效减轻这些问题,但对视频生成模型来说,这会很困难。部分原因是标注和整理视频的人力成本很高。另外,视频生成方面还没有一个非常适合大规模扩展的架构。除了扩大规模,LLM 领域的另一个重要突破是能整合外部反馈来提升生成质量。那文本生视频模型也能受益于这一思路吗?为了解答这一问题,一个多所机构的研究团队探索了视频生成模型能自然获得的两种反馈类型,即来自视觉 - 语言模型(VLM)的 AI 反馈和将生成的视频转换成运动控制时得到的真实世界执行反馈。为了利用这些反馈来实现视频生成模型的自我提升,该团队提出了 VideoAgent,即视频智能体。该研究有三位共一作者:Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他参与者包括滑铁卢大学 Sebastian Fischmeister 教授、斯坦福大学基础模型研究中心(CRFM)主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang(杨梦娇)。其中,中间行是基线,可以看到其出现了幻觉(碗消失了),而 VideoAgent 很好地完成了视频生成任务。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com原标题:《视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化》
标签: 智能体 percy liang