첫 번째 프로젝트 시작하기

위에서 설명한 개념들을 연결하는 가장 쉬운 방법은 구체적인 사례를 살펴보는 것입니다. 이 가이드는 프로젝트를 여는 것부터 최종 영상을 내보내는 것까지의 과정을 안내합니다.

> 시나리오: 머릿속에 구상 중인 이미지가 있습니다. 깊은 밤 루프탑에서 외로운 로봇이 시들어가는 화분에 물을 주고 있습니다. 대사 없이 비주얼과 음악만으로 구성된 45초 분량의 분위기 있는 영상을 만들고자 합니다. 이미 마음에 드는 AI 생성 로봇 컨셉 이미지가 있으며, 이를 바탕으로 작업을 이어가고 싶습니다.

1단계: 채팅을 통한 스토리 생성

채팅 패널에서 다음과 같이 말합니다.

> "45초 분량의 감성적인 단편 영상을 만드는 걸 도와줘. 스토리는 간단해. 깊은 밤 루프탑에서 낡은 로봇이 시들어가는 화분을 조용히 돌보고 있어. 대사 없이 비주얼과 음악만으로 구성해 줘. 내가 업로드한 이미지를 로봇의 시각적 참고 자료로 사용하고, 그 스타일을 유지해 줘. 세로형, 9:16 비율로."

플래너(Planner)가 작동을 시작합니다:

멀티모달 입력 수용: 이미지와 텍스트가 한 번에 플래너에 입력됩니다. 분석 에이전트는 업로드된 참고 이미지에서 낡은 금속 외피, 눈의 은은하고 따뜻한 빛, 약간 구부정한 자세 등의 시각적 특징을 자동으로 추출하고 전체적인 비주얼 스타일을 태그합니다. 동시에 이미지는 나중에 연결하거나 재사용할 수 있도록 파일(Files) 패널에 나타납니다.
스킬(Skill) 매칭: 요청에 따라 플래너는 Story-Driven Short Video 스킬을 자동으로 선택합니다. 이 스킬은 Flova가 서사를 정보 중심의 나열이 아닌, 3단 구성의 감정적 흐름으로 조직하도록 안내합니다.
문서 업데이트: 문서 유지 관리 에이전트가 재생 시간, 화면 비율, "대사 없음, 비주얼 중심 스토리텔링", 비주얼 스타일 키워드를 최종 영상 사양(Final Video Spec)에 기록합니다.
스토리보드 설계: 스킬의 서사 규칙에 따라 스토리보드 디자이너가 다음과 같은 구조를 출력합니다:

주요 요소(Key elements): 세 가지 주요 요소가 생성됩니다. Element_Chibi_Robot은 업로드된 이미지를 시각적 기반으로 하는 낡은 치비 스타일 로봇을 묘사합니다. Element_Rooftop_Night는 흐릿한 도시 불빛과 깊은 밤하늘이 어우러진 루프탑을 설명합니다. Element_Dying_Plant는 금이 간 낡은 진흙 화분에 담긴, 거의 죽어가는 식물을 정의합니다.
샷(Shots): 각각 약 15초 분량의 롱 샷 3개로 구성됩니다. Shot_Rooftop_Intro는 루프탑의 전경을 보여주며 로봇과 식물을 향해 서서히 다가갑니다. Shot_Caring_Plant는 식물에 초점을 맞춘 후 물을 주는 로봇을 보여주고, 마른 잎에 물방울이 떨어지는 모습을 익스트림 클로즈업으로 담아냅니다. Shot_Companion_Night는 식물 옆에 앉아 있는 로봇을 보여준 후, 둘이 함께 고요한 도시의 스카이라인을 바라보는 모습에서 화면이 점차 어두워집니다.
오디오 레이어: 단일 배경 음악 트랙인 Audio_Melancholy_Piano가 생성됩니다. 최소한의 피아노 선율로 시작하여 나중에는 희미한 현악기와 약간의 기계적 질감이 더해지며, 외로움에서 따뜻하고 조용한 보살핌의 정서로 변화합니다.

2단계: 스토리보드 조정

출력 결과를 검토한 후, 세 번째 샷에서 로봇이 앉아 있는 모습을 더 자세히 묘사하기로 결정합니다. 샷 설명을 더블 클릭하여 관절에서 나는 부드러운 기계적 마찰음과 약간 앞으로 숙인 자세를 추가하도록 수정합니다. 이는 감정적 긴장감을 더해줍니다.

이러한 수동 변경 사항을 Flova에게 따로 설명할 필요는 없습니다. 다음 단계에서 자동으로 반영됩니다.

3단계: 주요 이미지 생성

다음과 같이 말합니다:

> "먼저 모든 주요 요소 이미지를 생성해 줘. 다음 단계로 넘어가기 전에 핵심 캐릭터와 장면을 확정하고 싶어."

미디어 생성기는 샷 키프레임 대신 주요 요소 작업부터 시작합니다. 업로드된 참고 이미지를 엄격한 기준으로 삼아 동일한 캐릭터 컨셉을 확장하며, 치비 형태, 녹슨 외피, 따뜻하게 빛나는 눈, 손으로 그린 듯한 느낌을 일관되게 유지합니다.

몇 분 후, 주요 요소 항목 아래에 여러 후보 이미지가 나타납니다. 어떤 이미지는 도시의 불빛을 더 강조하고, 어떤 이미지는 별이 빛나는 밤하늘을 돋보이게 하며, 어떤 이미지는 전반적으로 더 따뜻한 느낌을 줍니다.

미리보기 패널에서 이미지를 살펴봅니다:

한 장면 이미지가 의도와 비슷하지만, 충분히 깊고 고독한 느낌이 들지 않습니다.
미리보기 패널에 직접 피드백을 입력합니다: "아직 깊고 고독한 느낌이 부족해. 비교해 볼 수 있게 버전을 몇 개 더 생성해 줘."
미디어 생성기가 동일한 에셋 그룹 아래에 더 많은 버전을 추가합니다.
새 버전 중에는 더 어두운 것, 네온 빛을 줄인 것, 벽면의 따뜻한 조명을 약하게 하여 고독감을 높인 것 등이 있습니다.
이미지들을 나란히 비교해 보고 의도한 느낌과 가장 잘 맞는 이미지를 선택(Like)합니다.

여기서 중요한 점은 한 번에 완벽한 결과물을 만드는 것이 아닙니다. 집중적인 반복 작업을 통해 단일 에셋의 캐릭터와 분위기를 확정한 후, 유의미한 선택지 중에서 최선의 버전을 고르는 것입니다.

4단계: 영상 생성

다음과 같이 말합니다:

> "이제 확정된 주요 요소를 바탕으로 각 샷의 영상을 생성해 줘."

미디어 생성기가 스토리보드의 샷별로 작업을 진행합니다. 각 샷은 Element_Chibi_Robot과 Element_Rooftop_Night의 현재 버전을 자동으로 참조하므로, 로봇의 외형, 환경 분위기, 전체적인 색감이 작품 전체에 걸쳐 일관되게 유지됩니다.

몇 차례의 과정을 거쳐 각 샷에 대해 여러 개의 후보 영상 버전이 생성됩니다. 하나씩 검토합니다. Shot_Companion_Night의 한 버전이 호흡과 감정적 무게감이 가장 뛰어나 마음에 듭니다. 다른 샷에서는 로봇의 움직임이 다소 뻣뻣하게 느껴져 코멘트를 통해 수정을 두 번 더 요청한 후 더 나은 결과물을 선택합니다.

5단계: 음악 생성

다음과 같이 말합니다:

> "배경 음악을 생성해 줘."

미디어 생성기가 오디오 레이어 정의에 따라 동일한 에셋 그룹 아래에 두 가지 음악 버전을 만듭니다. 들어본 후 첫 번째 버전은 소리가 너무 꽉 찬 느낌인 반면, 두 번째 버전은 여백이 있고 비주얼과 함께 호흡하기에 더 적합하다고 판단하여 두 번째 버전을 선택합니다.

6단계: 타임라인 조립

다음과 같이 말합니다:

> "타임라인을 조립해 줘."

영상 조립기(Video assembler)가 스토리보드, 선택된 주요 요소 버전, 생성된 샷 미디어, 음악을 타임라인으로 결합합니다. 타임라인 패널로 전환하여 미리보기를 하니, 세 번째 샷의 마지막 정지 화면이 1초 정도 더 길어야 로봇과 식물이 도시와 함께 머무는 느낌이 더 살 것 같습니다. 타이밍을 수동으로 드래그하여 조정합니다.

타임라인 모드에서는 파일(Files) 패널을 열어 다른 미디어를 타임라인 트랙으로 직접 드래그할 수도 있습니다.

7단계: 브랜치 탐색

결과를 미리 본 후, 영상이 바로 페이드 아웃되는 대신 식물의 잎이 아주 살짝 움직이면서 끝나면 여운이 더 깊지 않을까 하는 생각이 듭니다.

채팅 기록으로 돌아가 로봇 이미지 생성이 시작되기 전 지점을 찾고 Branch from here를 클릭합니다. 새 브랜치에서 Shot_Companion_Night의 설명을 편집하고 Flova에게 다시 생성을 요청합니다. 이제 두 가지 엔딩이 나란히 존재하며, 이를 비교하여 선택하거나 각각 독립적으로 발전시킬 수 있습니다.

8단계: 내보내기

결국 더 절제된 버전을 선택합니다. 명시적인 "부활"은 없으며, 밤이 끝날 때까지 로봇이 식물 곁을 묵묵히 지키는 결말입니다. 타임라인이 확정되면 내보내기(Export)를 클릭합니다. 이로써 45초 분량의 세로형 감성 단편 영상이 완성되었습니다.

첫 번째 프로젝트 시작하기

1단계: 채팅을 통한 스토리 생성

2단계: 스토리보드 조정

3단계: 주요 이미지 생성

4단계: 영상 생성

5단계: 음악 생성

6단계: 타임라인 조립

7단계: 브랜치 탐색

8단계: 내보내기

이 페이지의 내용