快速开始你的第一个项目
用一个具体的例子把前面的概念串起来——从打开项目到导出成片,走一遍完整的流程。
> 场景:你脑子里有一个画面——深夜的城市天台上,一个孤独的机器人正在给枯萎的盆栽浇水。你想把它做成一条 45 秒的情绪短片,没有对白,只有画面和音乐。你手里有一张之前用 AI 生成的机器人概念图,风格还不错,想延续下去。
第一步:通过对话创建故事
你在对话面板里说:
> "帮我做一条 45 秒的情绪短片。故事很简单:深夜天台,一个老旧的机器人独自照料一棵快枯死的盆栽。没有对白,只靠画面和音乐讲故事。我上传的图就是这个机器人的形象参考,风格照着来。竖屏,9:16。"
Planner 开始工作:
-
接收多模态输入:图片和文字会作为同一轮输入一起进入 Planner。素材分析 Agent 自动运行,先从你上传的参考图中提取角色外观特征(锈迹斑驳的金属外壳、发出暖黄色微光的眼睛、略微佝偻的姿态)和画面风格标签;这张图同时会出现在文件库中,供后续绑定和复用。
-
匹配 Skill:Planner 根据你的描述,自动选择了**"叙事短片(Story-Driven Short Video)"** Skill——这个 Skill 会让 Flova 按三幕结构组织叙事,注重情绪节奏而非信息密度。Skill 的名称和描述从此常驻在 Planner 的上下文里,后续所有 Agent 都会参照它工作。
-
更新文档:调度文档维护 Agent,把时长(45 秒)、画幅(9:16 竖屏)、"无对白,纯画面叙事"、视觉风格关键词写入 Final Video Spec。
-
设计故事板:故事板设计师参考 Skill 中的叙事规则,输出结构:
-
关键元素:创建 3 个关键元素
Element_Chibi_Robot:老旧的 Chibi 风格机器人,生锈金属外壳、圆润可爱的造型、发出微弱暖光的眼睛,外观严格参考你上传的图片Element_Rooftop_Night:深夜城市高楼的露天天台,背景是模糊的城市霓虹和深邃星空,前景有一盏昏暗发黄的壁灯提供主光源Element_Dying_Plant:一盆种在破裂旧陶盆里的濒死植物,枝干干瘪,只剩两片微微下垂的叶子。 -
镜头:3 个包含内部剪辑的长镜头,每个约 15 秒
Shot_Rooftop_Intro:远景固定镜头交代天台与城市夜景,再缓慢前推,看见机器人步履蹒跚地走向角落里的植物,最后切到特写,机械爪极其轻柔地触碰花盆边缘Shot_Caring_Plant:先用低角度特写拍濒死植物,背景虚化里是机器人发光的眼睛,接着切到侧面中景,机器人拿出生锈的小水壶浇水,最后用极特写拍水滴落在干枯叶片上,暖黄光芒在水珠里被折射出来Shot_Companion_Night:机器人缓慢坐到植物旁边安静陪伴,接着拉远到远景,让机器人和植物一起面对寂静的城市夜景,最后画面淡出至全黑。 -
音频层:一条全片贯穿的背景音乐
Audio_Melancholy_Piano,以极简钢琴独奏开场,随后加入微弱弦乐,并带一点八音盒或机械运转的质感,情绪从孤独逐渐过渡到静谧而温暖的守护感。
第二步:调整故事板
看了之后觉得第三个镜头机器人坐下的画面可以更详细地去刻画,双击编辑描述,改成:"机器人坐下时关节轻微吱呀一声,坐下后身体微微前倾,像在守护",这样情绪更有张力。
这些手动操作不需要告诉 Flova——下次发消息时它会自动收到变更通知。
第三步:生成关键图像
生成 key element 的不同版本图像,并判断与精调。
你说:"先生成所有的 key element 图像,我想先把核心角色以及场景定下来。"
媒体生成 Agent 先围绕关键元素工作,而不是直接去生成镜头关键帧。它会严格参考你上传的那张形象图,围绕同一个角色概念去扩展多个可选版本,重点保持 Chibi 造型、生锈金属外壳、暖黄色微光眼睛和手绘质感的一致性。
几分钟后,key element 下面先有了几张不同方向的候选图:有的城市灯火更明显一些,有的星空更突出一些,有的整体氛围更温暖一些。
你在预览面板里逐张翻阅:
-
你先看到其中一张场景图,觉得氛围方向已经接近了,但还不够到位
-
于是你直接在预览面板底部输入评论:"我觉得这个图片不够深邃和孤独,可以多生成几张图片给我感受看看" → 媒体生成 Agent 直接在同一个素材组下继续生成多个新版本
-
新出来的几张图里,有的夜色更深,有的城市霓虹更克制,有的壁灯暖光更弱,整体孤独感被拉得更开
-
你在这些版本里横向比较,最后选中最符合心里感觉的那一张 → 点赞,把它设为当前使用的版本
这一步的核心不是一次生成就结束,而是:先把某一个资产的形象和气质定下来,再围绕单个图像持续评论式迭代,得到多个版本,然后从中选出最优版本。
第四步:生成视频
你说:"基于现在定下来的 key elements,开始生成每个镜头的视频。"
媒体生成 Agent 开始按故事板逐镜头生成视频。每个镜头生成时,都会自动参考你已经选定的 Element_Chibi_Robot 和 Element_Rooftop_Night 当前版本,所以角色外观、场景气质、整体色调会在不同镜头之间保持一致。
几轮生成后,每个镜头下面都有了多个视频候选版本。你逐个预览,发现 Shot_Companion_Night 的一个版本节奏最稳、镜头情绪最沉,于是点赞选定;另一个镜头里机器人的动作稍微有点僵,你又用评论式生成补了两个版本,再从中选出最好的一个。
第五步:生成音乐
你说:"生成背景音乐。"
媒体生成 Agent 按照音频层的定义生成了两个版本的配乐(同一个素材组下的两个素材)。你试听后,第 1 版钢琴太满了,第 2 版留白更多,和画面的呼吸感更搭 → 点赞第 2 版。
第六步:装配时间线
你说:"组装时间线。"
视频装配 Agent 把故事板、已选定的 key element 版本、以及后续生成出的镜头素材和配乐一起组装到时间线上。你切到剪辑面板预览,觉得第三个镜头最后的停留还可以再长一秒,让机器人和植物并排看着城市夜景的那一刻更沉一点,于是手动拖拽调整。
在时间线状态下,同样可以打开文件区,直接拖动对应的素材到时间线轨道上完成修改。
第七步:分支探索
预览之后你突然想:如果最后一个镜头不要直接淡出,而是在淡出前加一个极轻微的植物叶片晃动,会不会让结尾更有余韵?
你在对话历史中找到"先生成机器人的不同版本图像"之前的那条消息,点击 "Branch from here"。在新分支里,你双击修改了 Shot_Companion_Night 的描述,让 Flova 重新生成。两个结尾独立并存,你可以随时比较、选择,或者继续分别发展。
第八步:导出
最终你选了更克制的版本:没有明确"复苏"的结果,只有机器人安静陪伴植物直到夜色结束。确认时间线后点击导出,一条 45 秒的竖屏情绪短片就完成了。
最后更新于