快速开始你的第一个项目

用一个具体的例子把前面的概念串起来——从打开项目到导出成片，走一遍完整的流程。

> 场景：你脑子里有一个画面——深夜的城市天台上，一个孤独的机器人正在给枯萎的盆栽浇水。你想把它做成一条 45 秒的情绪短片，没有对白，只有画面和音乐。你手里有一张之前用 AI 生成的机器人概念图，风格还不错，想延续下去。

第一步：通过对话创建故事

你在对话面板里说：

> "帮我做一条 45 秒的情绪短片。故事很简单：深夜天台，一个老旧的机器人独自照料一棵快枯死的盆栽。没有对白，只靠画面和音乐讲故事。我上传的图就是这个机器人的形象参考，风格照着来。竖屏，9:16。"

Planner 开始工作：

接收多模态输入：图片和文字会作为同一轮输入一起进入 Planner。素材分析 Agent 自动运行，先从你上传的参考图中提取角色外观特征（锈迹斑驳的金属外壳、发出暖黄色微光的眼睛、略微佝偻的姿态）和画面风格标签；这张图同时会出现在文件库中，供后续绑定和复用。
匹配 Skill：Planner 根据你的描述，自动选择了**"叙事短片（Story-Driven Short Video）"** Skill——这个 Skill 会让 Flova 按三幕结构组织叙事，注重情绪节奏而非信息密度。Skill 的名称和描述从此常驻在 Planner 的上下文里，后续所有 Agent 都会参照它工作。
更新文档：调度文档维护 Agent，把时长（45 秒）、画幅（9:16 竖屏）、"无对白，纯画面叙事"、视觉风格关键词写入 Final Video Spec。
设计故事板：故事板设计师参考 Skill 中的叙事规则，输出结构：

关键元素：创建 3 个关键元素Element_Chibi_Robot：老旧的 Chibi 风格机器人，生锈金属外壳、圆润可爱的造型、发出微弱暖光的眼睛，外观严格参考你上传的图片Element_Rooftop_Night：深夜城市高楼的露天天台，背景是模糊的城市霓虹和深邃星空，前景有一盏昏暗发黄的壁灯提供主光源Element_Dying_Plant：一盆种在破裂旧陶盆里的濒死植物，枝干干瘪，只剩两片微微下垂的叶子。
镜头：3 个包含内部剪辑的长镜头，每个约 15 秒Shot_Rooftop_Intro：远景固定镜头交代天台与城市夜景，再缓慢前推，看见机器人步履蹒跚地走向角落里的植物，最后切到特写，机械爪极其轻柔地触碰花盆边缘Shot_Caring_Plant：先用低角度特写拍濒死植物，背景虚化里是机器人发光的眼睛，接着切到侧面中景，机器人拿出生锈的小水壶浇水，最后用极特写拍水滴落在干枯叶片上，暖黄光芒在水珠里被折射出来Shot_Companion_Night：机器人缓慢坐到植物旁边安静陪伴，接着拉远到远景，让机器人和植物一起面对寂静的城市夜景，最后画面淡出至全黑。
音频层：一条全片贯穿的背景音乐 Audio_Melancholy_Piano，以极简钢琴独奏开场，随后加入微弱弦乐，并带一点八音盒或机械运转的质感，情绪从孤独逐渐过渡到静谧而温暖的守护感。

看了之后觉得第三个镜头机器人坐下的画面可以更详细地去刻画，双击编辑描述，改成："机器人坐下时关节轻微吱呀一声，坐下后身体微微前倾，像在守护"，这样情绪更有张力。

这些手动操作不需要告诉 Flova——下次发消息时它会自动收到变更通知。

生成 key element 的不同版本图像，并判断与精调。

你说："先生成所有的 key element 图像，我想先把核心角色以及场景定下来。"

媒体生成 Agent 先围绕关键元素工作，而不是直接去生成镜头关键帧。它会严格参考你上传的那张形象图，围绕同一个角色概念去扩展多个可选版本，重点保持 Chibi 造型、生锈金属外壳、暖黄色微光眼睛和手绘质感的一致性。

几分钟后，key element 下面先有了几张不同方向的候选图：有的城市灯火更明显一些，有的星空更突出一些，有的整体氛围更温暖一些。

你在预览面板里逐张翻阅：

你先看到其中一张场景图，觉得氛围方向已经接近了，但还不够到位
于是你直接在预览面板底部输入评论："我觉得这个图片不够深邃和孤独，可以多生成几张图片给我感受看看" → 媒体生成 Agent 直接在同一个素材组下继续生成多个新版本
新出来的几张图里，有的夜色更深，有的城市霓虹更克制，有的壁灯暖光更弱，整体孤独感被拉得更开
你在这些版本里横向比较，最后选中最符合心里感觉的那一张 → 点赞，把它设为当前使用的版本

这一步的核心不是一次生成就结束，而是：先把某一个资产的形象和气质定下来，再围绕单个图像持续评论式迭代，得到多个版本，然后从中选出最优版本。

你说："基于现在定下来的 key elements，开始生成每个镜头的视频。"

媒体生成 Agent 开始按故事板逐镜头生成视频。每个镜头生成时，都会自动参考你已经选定的 Element_Chibi_Robot 和 Element_Rooftop_Night 当前版本，所以角色外观、场景气质、整体色调会在不同镜头之间保持一致。

几轮生成后，每个镜头下面都有了多个视频候选版本。你逐个预览，发现 Shot_Companion_Night 的一个版本节奏最稳、镜头情绪最沉，于是点赞选定；另一个镜头里机器人的动作稍微有点僵，你又用评论式生成补了两个版本，再从中选出最好的一个。

你说："生成背景音乐。"

媒体生成 Agent 按照音频层的定义生成了两个版本的配乐（同一个素材组下的两个素材）。你试听后，第 1 版钢琴太满了，第 2 版留白更多，和画面的呼吸感更搭 → 点赞第 2 版。

你说："组装时间线。"

视频装配 Agent 把故事板、已选定的 key element 版本、以及后续生成出的镜头素材和配乐一起组装到时间线上。你切到剪辑面板预览，觉得第三个镜头最后的停留还可以再长一秒，让机器人和植物并排看着城市夜景的那一刻更沉一点，于是手动拖拽调整。

在时间线状态下，同样可以打开文件区，直接拖动对应的素材到时间线轨道上完成修改。

预览之后你突然想：如果最后一个镜头不要直接淡出，而是在淡出前加一个极轻微的植物叶片晃动，会不会让结尾更有余韵？

你在对话历史中找到"先生成机器人的不同版本图像"之前的那条消息，点击 "Branch from here"。在新分支里，你双击修改了 Shot_Companion_Night 的描述，让 Flova 重新生成。两个结尾独立并存，你可以随时比较、选择，或者继续分别发展。

最终你选了更克制的版本：没有明确"复苏"的结果，只有机器人安静陪伴植物直到夜色结束。确认时间线后点击导出，一条 45 秒的竖屏情绪短片就完成了。