はじめてのプロジェクトを開始する

上記のコンセプトを理解する最も簡単な方法は、具体的な例を通すことです。このウォークスルーでは、プロジェクトの開始から最終的なビデオの書き出しまでを説明します。

> シナリオ：あなたはあるイメージを思い描いています。真夜中の屋上で、孤独なロボットが枯れかけた鉢植えに水をやっています。これを、セリフはなく、映像と音楽だけで構成された45秒間の情緒的な作品にしたいと考えています。すでに気に入っている、AIで生成されたロボットのコンセプト画像があり、それをベースに進めたいとします。

ステップ1：チャットでストーリーを作成する

チャットパネルで、次のように入力します：

> 「45秒間のエモーショナルなショート動画の制作を手伝ってください。ストーリーはシンプルです。深夜の屋上、古いロボットが枯れかけた鉢植えを静かに手入れしています。セリフはなく、映像と音楽のみ。アップロードした画像をロボットのビジュアルリファレンスとして使用し、そのスタイルに合わせてください。縦型、9:16でお願いします。」

プランナーが作業を開始します：

マルチモーダル入力を受け入れる：画像とテキストが一度にプランナーに送られます。分析エージェントは、アップロードされたリファレンス画像から、使い古された金属の質感、目の奥のほのかな温かい光、少し猫背な姿勢などの視覚的特徴を自動的に抽出し、全体のビジュアルスタイルとしてタグ付けします。画像は、後でバインドしたり再利用したりできるように、同時に「ファイル」パネルにも表示されます。
スキルをマッチングする：リクエストに基づき、プランナーは自動的に「ストーリー主導型ショートビデオ」スキルを選択します。このスキルは、情報を詰め込むのではなく、3幕構成のエモーショナルなアークとしてナラティブを構成するようFlovaに指示します。
ドキュメントを更新する：ドキュメント維持エージェントが、再生時間、アスペクト比、「セリフなし、視覚のみのストーリーテリング」、およびビジュアルスタイルのキーワードを最終ビデオ仕様（Final Video Spec）に書き込みます。
ストーリーボードを設計する：スキルのナラティブ・ルールに基づき、ストーリーボードデザイナーが構造を出力します。

主要要素（Key elements）：3つの主要要素が作成されます。Element_Chibi_Robot は、アップロードされた画像に基づいた、古いチビ風のロボットを定義します。Element_Rooftop_Night は、都会の明かりがぼやけ、深い夜空が広がる深夜の屋上を定義します。Element_Dying_Plant は、ひび割れた古い素焼きの鉢に植えられた、枯れかけた植物を定義します。
カット（Shots）：それぞれ約15秒の3つのロングショットです。Shot_Rooftop_Intro は屋上の全景から始まり、ゆっくりとロボットと植物に寄っていきます。Shot_Caring_Plant は植物にフォーカスし、次にロボットが水をやる様子、そして乾いた葉に水滴が落ちる極クローズアップへと続きます。Shot_Companion_Night は植物のそばに座るロボットを映し出し、その後、静かな街のスカイラインを共に見つめる二者の姿を捉えながらフェードアウトします。
オーディオレイヤー：1つのバックグラウンドミュージックトラック Audio_Melancholy_Piano。最小限のピアノから始まり、やがてかすかな弦楽器と少しメカニカルな質感が加わり、孤独から温かく静かなケアへと変化していきます。

ステップ2：ストーリーボードを調整する

出力を確認した後、3番目のカットでロボットが座る様子をもっと詳しく描写することに決めました。カットの説明をダブルクリックし、関節の柔らかい機械的な軋み音と、少し前かがみの姿勢を含めるように修正します。これにより感情的な緊張感が高まります。

これらの手動での変更をFlovaに説明する必要はありません。次のターンで自動的に反映されます。

ステップ3：キー画像を生成する

次のように伝えます：

> 「まず、すべての主要要素の画像を生成してください。先に進む前に、コアとなるキャラクターとシーンを確定させたいです。」

メディアジェネレーターは、各カットのキーフレームではなく、まず主要要素の作成に取り掛かります。アップロードされたリファレンス画像を厳密なアンカーとして使用し、チビの体型、錆びた外装、温かく光る目、手書き風の質感を維持しながら、同じキャラクターコンセプトを広げていきます。

数分後、主要要素の下にいくつかの候補画像が表示されます。都会の明かりを強調したもの、星空を際立たせたもの、全体的に温かみのあるものなどがあります。

プレビューパネルでそれらをブラウズします：

あるシーンの画像はイメージに近いものの、深みや孤独感が少し足りないと感じたとします
プレビューパネルに直接フィードバックを入力します：「まだ深みや孤独感が足りない気がします。比較できるように、あといくつかバージョンを生成してください。」
メディアジェネレーターは、同じアセットグループ内にさらにバージョンを追加します
新しいバージョンの中には、より暗いもの、ネオンの輝きを抑えたもの、壁の温かい光を弱めて孤独感を高めたものなどが含まれています
それらを並べて比較し、意図した感覚に最も一致するものを選びます

ここでの重要なポイントは、一度で完璧なものを生成することではありません。集中的な反復を通じて単一のアセットのキャラクターと雰囲気を確定させ、意味のある選択肢の中から最適なバージョンを選ぶことにあります。

ステップ4：ビデオを生成する

次のように伝えます：

> 「確定した主要要素に基づいて、各カットのビデオを生成してください。」

メディアジェネレーターは、ストーリーボードに沿ってカットごとに作業を進めます。各カットは、確定済みの Element_Chibi_Robot と Element_Rooftop_Night の最新バージョンを自動的に参照するため、ロボットの外見、環境の雰囲気、全体のカラーパレットの整合性が保たれます。

数回の生成後、各カットに複数の候補ビデオバージョンが用意されます。それらを一つずつ確認します。Shot_Companion_Night のあるバージョンは、テンポと感情的な重みが最も優れていたため、それを採用します。別のカットでは、ロボットの動きが少しぎこちなく感じられたため、コメントでさらに2つの修正版をリクエストし、より良い方を選びます。

ステップ5：音楽を生成する

次のように伝えます：

> 「バックグラウンドミュージックを生成してください。」

メディアジェネレーターは、オーディオレイヤーの定義に従って、同じアセットグループ内に2つの音楽バージョンを作成します。試聴した結果、最初のバージョンは音が多すぎると感じ、2番目のバージョンの方が余白があり、映像とうまく調和していると判断したため、2番目のバージョンを採用します。

ステップ6：タイムラインを組み立てる

次のように伝えます：

> 「タイムラインを組み立ててください。」

ビデオアセンブラーが、ストーリーボード、選択された主要要素のバージョン、生成されたカットメディア、および音楽をタイムラインに統合します。タイムラインパネルに切り替えてプレビューすると、3番目のカットの最後の静止時間をあと1秒長くして、ロボットと植物がもう少し長く街と共に佇むようにしたいと感じました。手動でタイミングをドラッグして調整します。

タイムラインモードでは、「ファイル」パネルを開いて、別のメディアを直接タイムライントラックにドラッグすることもできます。

ステップ7：ブランチを試す

結果をプレビューした後、すぐにフェードアウトするのではなく、フェードの直前に植物の葉がわずかに動いた方が、より余韻が残るのではないかと考えました。

チャット履歴に戻り、ロボット画像の生成が始まる前の時点を見つけて、「ここからブランチを作成（Branch from here）」をクリックします。新しいブランチで Shot_Companion_Night の説明を編集し、Flovaに再生成を依頼します。これで、2つのエンディングが並行して存在することになり、個別に比較、選択、または発展させることができます。

ステップ8：書き出し

最終的に、より抑えた表現のバージョンを選択しました。明確な「復活」は描かれず、夜が明けるまでロボットが静かに植物に寄り添うだけのエンディングです。タイムラインが確定したら「書き出し」をクリックし、45秒の縦型エモーショナルショート動画の完成です。

はじめてのプロジェクトを開始する

ステップ1：チャットでストーリーを作成する

ステップ2：ストーリーボードを調整する

ステップ3：キー画像を生成する

ステップ4：ビデオを生成する

ステップ5：音楽を生成する

ステップ6：タイムラインを組み立てる

ステップ7：ブランチを試す

ステップ8：書き出し

このページの内容