Flova 작동 원리

Flova는 단일 모델이 아닙니다. 여러 전문 에이전트로 구성된 협업 시스템입니다. 이 시스템을 이해하면 Flova의 동작을 예측하고 더 효율적으로 함께 작업하는 데 도움이 됩니다.

플래너: 시스템의 두뇌

플래너는 Flova 에이전트 시스템의 중심 오케스트레이터입니다. 플래너는 다음 두 가지 역할을 수행합니다.

사용자 의도 파악: 사용자의 메시지, 현재 스토리보드 상태, 프로젝트 문서, 활성화된 스킬(Skill)을 읽고 사용자가 실제로 원하는 것이 무엇인지 결정합니다.
작업 분해 및 할당: 목표를 실행 가능한 하위 작업으로 나누고 적절한 서브 에이전트에게 전달합니다.

플래너는 창의적인 작업을 직접 수행하지 않습니다. 이미지를 생성하거나 스토리보드를 수정하지 않습니다. 플래너의 역할은 사고와 조율입니다.

플래너 결정 로직

사용자의 메시지를 받을 때마다 플래너는 생각-행동 루프에 진입합니다. 먼저 사용자에게 확인이나 설명이 필요한지 평가합니다. 그렇지 않다면 다음에 어떤 서브 에이전트가 행동해야 할지 선택합니다. 결과를 받으면 다음 단계를 평가합니다. 다른 작업을 할당하거나 사용자에게 완료 보고를 합니다.

이 루프를 통해 플래너는 복잡한 다단계 워크플로우를 처리할 수 있습니다. 처음부터 완전한 단편 비디오 생성과 같은 요청은 스토리보드 디자이너, 미디어 생성기, 비디오 어셈블러에 대한 일련의 호출이 필요할 수 있으며, 이 모든 과정은 플래너에 의해 조율됩니다.

중단 조건

플래너는 다음과 같은 상황에서 작업을 중단하고 제어권을 사용자에게 반환합니다.

작업 완료
추가 정보 필요
사용자의 핵심 결정 필요
할당량(quota) 또는 플랫폼 제한과 같은 제약 조건 도달

서브 에이전트 시스템

Flova에는 현재 다음과 같은 전문 서브 에이전트가 포함되어 있습니다.

스토리보드 디자이너

이 에이전트는 스토리보드 구조를 생성하고 유지 관리하는 데 집중합니다. 사용자가 도시의 밤 러닝에 관한 3분 단편 영화 계획을 도와달라고 요청하면, 플래너는 해당 요청을 스토리보드 디자이너에게 보냅니다.

핵심 원칙은 구조 우선입니다. 세부 샷으로 들어가기 전에 내러티브 논리와 샷 순서를 해결합니다. 스토리보드를 직접 다시 쓰는 대신 추가, 업데이트, 삭제, 재정렬 작업과 같은 구조화된 수정 사항을 출력하여 모든 변경 사항을 추적하고 되돌릴 수 있도록 합니다.

미디어 생성기

이 에이전트는 이미지 생성, 비디오 생성, 음성 합성, 음악 생성 등 모든 미디어 자산 그룹을 생성하고 관리하는 역할을 합니다.

세 가지 주요 시나리오를 처리합니다.

초기 생성: 샷 설명으로부터 새로운 시각적 또는 오디오 자산 그룹 생성
수정 및 재생성: 이전 버전을 보존하면서 사용자 피드백과 참조 미디어를 기반으로 새 버전 생성
구조적 관리: 새 콘텐츠를 생성하지 않고 자산 그룹 등록, 바인딩 유지, 리소스 추적

미디어 생성기는 중요한 원칙인 지연 업데이트(lazy updates)를 따릅니다. 사용자가 명시적으로 대상으로 지정한 소스 자산 그룹만 재생성합니다. 이에 의존하는 하위 리소스의 경우 모든 것을 자동으로 재생성하는 대신 플래너에게 영향 목록(impact list)을 생성해 전달합니다.

분석 및 준비

사용자가 이미지, 비디오 또는 문서를 업로드하면, 이 에이전트는 자료를 분석하고 장면 설명, 캐릭터 특징, 스타일 태그와 같은 구조화된 정보를 추출하여 향후 창작 작업을 지원합니다.

비디오 어셈블러

이 에이전트는 스토리보드 청사진과 샷 미디어를 미리보기 가능한 타임라인으로 조합합니다. 메인 비디오, 음성, 음악의 세 가지 트랙을 관리합니다. 각 작업은 매번 전체 타임라인을 다시 빌드하는 대신 필요한 부분만 변경합니다.

텍스트 에디터

이 에이전트는 최종 비디오 사양(Final Video Spec) 및 스킬(Skill) 파일과 같은 프로젝트 메모리 문서를 유지 관리합니다. 수정 이력이 추적 가능하도록 제어된 텍스트 작업을 통해 문서를 편집합니다.

스킬 로더

이 에이전트는 적절한 순간에 서브 에이전트의 작업 컨텍스트에 스킬(Skill) 콘텐츠를 주입합니다. 전체 스킬 문서를 모든 컨텍스트 창에 쏟아붓는 대신, 각 에이전트와 관련된 섹션만 전송합니다.

ReAct 루프: 사고와 행동

Flova의 작업 방식은 AI 분야의 ReAct 패턴을 따릅니다. 먼저 추론하고, 행동한 다음, 행동 결과를 사용하여 다음 단계의 추론을 이끌어냅니다.

사용자에게는 다음과 같은 의미가 있습니다.

모든 Flova의 결정에는 이유가 있습니다. 플래너는 서브 에이전트를 무작위로 호출하지 않습니다. 결정을 내리기 전에 현재 상태를 바탕으로 추론합니다.

복잡한 작업이 자연스럽게 분해됩니다. Flova에게 전체 프로젝트를 처음부터 끝까지 완료해 달라고 요청할 때, Flova는 불투명한 한 단계로 모든 것을 처리하려 하지 않습니다. 단계별로 이동하고 진행 상황을 보고하며 사용자의 판단이 필요한 경우 일시 중지합니다.

중간 상태를 확인할 수 있습니다. 모든 작업이 끝날 때까지 기다릴 필요가 없습니다. 각 서브 에이전트가 작업을 마칠 때마다 스토리보드와 미디어 라이브러리가 업데이트됩니다.

컨텍스트 주입: Flova의 작업 메모리

서브 에이전트가 실행될 때, Flova는 해당 에이전트의 책임과 관련된 컨텍스트를 자동으로 주입합니다. 관리 논리는 간단합니다. 각 에이전트가 실제로 필요한 정보에 집중하게 하고 방해되는 정보는 숨기는 것입니다.

스토리보드 디자이너에게는 세부적인 생성 설정이 아닌 내러티브 구조가 필요합니다. 미디어 생성기에게는 타임라인의 전체 편집 논리가 아닌 샷 설명과 참조 자료가 필요합니다. 각 에이전트가 볼 수 있는 범위를 세심하게 제한함으로써, Flova는 전문 에이전트들이 방대한 프로젝트 정보에 매몰되지 않고 자신의 도메인에서 더 나은 결정을 내릴 수 있도록 돕습니다.

이 페이지의 내용