Flovaの仕組み

Flovaは単一のモデルではありません。複数の特化型エージェントで構成された協調システムです。このシステムを理解することで、Flovaの動作を予測し、より効果的に活用できるようになります。

Planner：システムの頭脳

Plannerは、Flovaのエージェントシステムの中心的なオーケストレーターです。以下の2つの役割を担います。

ユーザーの意図の理解：メッセージ、現在のストーリーボードの状態、プロジェクトドキュメント、および有効なSkillを読み取り、ユーザーが実際に何を望んでいるかを判断します。
作業の分解と割り当て：目標を実行可能なサブタスクに分解し、それらを適切なサブエージェントに渡します。

Planner自身は、クリエイティブな作業を直接行いません。画像の生成やストーリーボードの変更も行いません。その役割は、思考と調整にあります。

Plannerの意思決定ロジック

メッセージを受け取るたびに、Plannerは「思考・実行（think-act）」ループに入ります。まず、ユーザーへの確認や明確化が必要かどうかを評価します。必要ない場合は、次に行動すべきサブエージェントを選択します。結果を受け取ると、次のステップを評価します。別のタスクを割り当てるか、完了を報告するかを決定します。

このループにより、Plannerは複雑なマルチステップのワークフローを処理できます。「ゼロから完全な短編動画を生成して」という依頼には、ストーリーボードデザイナー、メディアジェネレーター、ビデオアセンブラーへの一連の呼び出しが必要になりますが、これらすべてがPlannerによって調整されます。

停止条件

Plannerは、以下の条件で停止し、制御をユーザーに戻します。

タスクが完了したとき
追加情報が必要なとき
ユーザーによる重要な意思決定が必要なとき
クォータやプラットフォームの制限などの制約に達したとき

サブエージェントシステム

Flovaには現在、以下の特化型サブエージェントが含まれています。

ストーリーボードデザイナー

このエージェントは、ストーリーボード構造の作成と維持に特化しています。「都会の夜のランニングについての3分間の短編映画の計画を立てて」といったリクエストは、Plannerによってストーリーボードデザイナーにルーティングされます。

その核心となる原則は「構造優先」です。各カットの詳細に入る前に、物語の論理とカットの順序を解決します。ストーリーボードを直接書き換えるのではなく、追加、更新、削除、並べ替えといった構造化された操作を出力するため、すべての変更が追跡可能で、元に戻すことも可能です。

メディアジェネレーター

このエージェントは、画像生成、動画生成、ナレーション合成、音楽生成といった、すべてのメディアアセットグループの作成と管理を担当します。

主に3つのシナリオを処理します。

初期生成：カットの説明から新しい視覚・音声アセットグループを作成する
修正と再生成：古いバージョンを保持しながら、ユーザーのフィードバックやリファレンスメディアに基づいて新しいバージョンを生成する
構造管理：新しいコンテンツを生成せずに、アセットグループの登録、バインディングの維持、リソースの追跡を行う

メディアジェネレーターは、重要な原則である**遅延更新（lazy updates）**に従います。これは、明示的にターゲットとしたソースアセットグループのみを再生成する仕組みです。それに依存するダウンストリームのリソースについては、すべてを自動的に再生成するのではなく、Plannerに対して影響リストを作成します。

分析・準備

画像、動画、またはドキュメントをアップロードすると、このエージェントが素材を分析し、シーンの説明、キャラクターの特徴、スタイルタグなどの構造化された情報を抽出して、後のクリエイティブ作業をサポートします。

ビデオアセンブラー

ストーリーボードの設計図とカットメディアを、プレビュー可能なタイムラインへと組み立てます。メインビデオ、ナレーション、音楽の3つのトラックを管理します。各操作では、毎回タイムライン全体を再構築するのではなく、必要な箇所のみを変更します。

テキストエディター

Final Video SpecやSkillファイルなどのプロジェクトメモリドキュメントを維持します。変更履歴を追跡できるよう、制御されたテキスト操作を通じて編集を行います。

Skillローダー

適切なタイミングで、サブエージェントの作業コンテキストにSkillの内容を注入します。ドキュメント全体をすべてのコンテキストウィンドウに流し込むのではなく、各サブエージェントに関連するSkillセクションのみを送信します。

ReActループ：思考と実行

Flovaの動作モードは、AI分野のReActパターンに従っています。まず推論し、次に行動し、そのアクションの結果を利用して次の推論を行います。

ユーザーにとって、これは以下のことを意味します。

Flovaのすべての決定には理由があります。 Plannerはサブエージェントをランダムに呼び出すことはありません。現在の状態から推論した上で決定を下します。

複雑なタスクは自然に分解されます。 プロジェクト全体をエンドツーエンドで完了するよう依頼しても、不透明な1つのステップですべてをこなそうとはしません。段階的に進み、進捗を報告し、ユーザーの判断が必要な場合は一時停止します。

中間状態が可視化されます。 すべてが完了するまで待つ必要はありません。各サブエージェントが作業を終えるたびに、ストーリーボードやメディアライブラリが更新されます。

コンテキスト注入：Flovaのワーキングメモリ

サブエージェントが実行される際、Flovaはそのエージェントの責任に関連するコンテキストを自動的に注入します。管理ロジックはシンプルです。各エージェントを実際に必要な情報に集中させ、気を散らすだけの情報は隠すというものです。

ストーリーボードデザイナーには物語の構造が必要であり、詳細な生成設定は不要です。メディアジェネレーターにはカットの説明とリファレンスが必要であり、タイムラインの編集ロジック全体は不要です。各エージェントが見ることができる範囲を慎重に制限することで、Flovaは専門エージェントがプロジェクト情報の膨大な量に圧倒されることなく、自身の領域でより適切な意思決定を行えるよう支援します。

Flovaの仕組み

Planner：システムの頭脳

サブエージェントシステム

ReActループ：思考と実行

コンテキスト注入：Flovaのワーキングメモリ

このページの内容