B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成
发布时间:2025-09-10 18:28:53 浏览量:3
责编 | 梦依丹
出品 | CSDN(ID:CSDNnews)
单台 8 卡 A800 仅需 8 秒即可生成 5 秒视频。
近日,B 站开源了其备受瞩目的动画视频生成模型 AniSora V3,该版本带来众多升级,如量化版本支持单卡 4090 推理,单台 4 卡 4090 生成 5 秒 360p 视频仅需 30 秒,单台 8 卡 A800 仅需 8 秒。
我们先来直观感受一下 AniSora V3 的视频生成效果。
最新的 V3 版本除了在动态性、画面美感、指令遵从等方面进行了增强外,还结合动画制作实际流程中的相关诉求,增加了多种模态的交互能力,更加贴合动画制作流程本身,为长视频创作提供了有力支撑。
AniSora 通过引入角色 360 度视图生成、任意帧引导、极低分辨率超分、风格转绘乃至音频驱动口型等多种交互能力, 使其更像是一个能听懂复杂需求的创意伙伴。
角色单张正面立绘生成 360 度视频
风格转绘
输入视频——线稿提取——风格化
目前官网已更新至 AniSora V3.1,优化了训练策略,增强了运动范围能力,并将运动分数设置为 2.0-4.0。
GitHub:https://github.com/bilibili/Index-anisora
而这一切的背后得益于导演驱动的多智能体长篇动画生成框架 AniME,它就像一个“AI 导播”,能调度剧本、角色、场景、动画、音效等多个“AI 专家智能体”协同工作,从而实现从单个镜头到连贯长视频的创作飞跃。
图 1 AniME 架构图
当拿到一个故事后, AniME 不会盲目地生成视频,而是像一位真正的导演那样,首先将故事解构成场景和镜头,规划好整体的视觉风格,再将具体任务分派给它的“专家团队”:
剧本与分镜智能体负责规划镜头语言;
角色与场景智能体负责设计视觉元素;
动画师智能体赋予画面以生命力;
甚至还有音频、剪辑乃至质量评估智能体负责后期制作和品控。
图 2 AniME 多智能体协作算法流程图
其内置的模型选择(MCP)机制还赋予了每个专家智能体一种“自主判断力”——它能根据当前任务的具体需求,从自己的专属工具箱中,智能地选择最合适的模型。比如,一个以对话为主的场景,它会优先选择能确保角色一致性的模型;而一个激烈的打斗场面,它则会调用更擅长动态生成的模型。
目前 AniME 的多智能体协作已用于 B 站的端到端动漫内容生成。例如对于小说片段:“一位算命先生曾说我生日那天会走大运,一飞冲天。可没想到,那天我居然被车撞了……然后直接被吸进了一个超级吞噬系统。在这个系统里,我叫玄夜,是个气海被毁的倒霉蛋,而且马上就要被天元宗圣女休夫了。” AniME 各模块的工作流程及输出如图 3 所示。通过各智能体协作,该片段可以自动化转换为长动画视频片段。
图 3 Story 驱动的 AniME 全流程视频生成效果演示
在今年 10 月举行的 2025 全球机器学习技术大会上,哔哩哔哩智能创作技术负责人、算法专家蒋宇东将亲临大会现场,带来《AI 动画模型技术实践、应用以及未来展望》的主题分享,探讨 AI 如何重塑动画生产力,助力动画内容规模化、高质量产出。
蒋宇东,现任哔哩哔哩智能创作技术负责人、算法专家。复旦大学计算机硕士,人工智能领域十余年资深专家。深耕机器学习与计算机视觉,曾就在阿里新华智云、腾讯 OVBU、字节 AILab 等头部企业算法核心团队担任技术负责人。
他将深入解析 Sora 时代动画视频生成技术的关键挑战,并结合 AniSora 的研发经验,介绍如何通过高质量数据处理管线、可控生成模型,以及针对动画特性定制的评测基准,来推动动画生产力的跃迁。
同时,他还将结合 AniSora 在长视频创作中的应用实践,剖析角色一致性、场景连贯性、物理效果生成等技术难点的解决思路。
2025 全球机器学习技术大会(ML-Summit)北京站将于 2025 年 10 月 16-17 日在北京威斯汀酒店举办。汇聚来自高校科研工作者、顶会论文作者与一线科技产业技术实践派的 50+ 位重量级嘉宾。他们将以实战经验与前沿洞察,带来关于智能体工程与实践、AI 编程、多模态大模型、具身智能、开源模型与框架等领域的深度解读与破局思路。详情参考官网:https://ml-summit.org (或点击原文链接)。