스킬 작성 가이드 | Flova AI Docs

스킬 작성 가이드

과거 Flova AI로 창작할 때, 많은 이들이 블랙박스를 향해 요구사항을 외치고 모두 똑같은 결과물을 얻으며 프로세스를 정밀하게 제어할 수 없는, 마치 ＂랜덤 박스를 여는 것＂ 같은 기분을 느꼈습니다. 마치 경직된 조립 라인처럼 시스템이 설정한 ＂대본 작성 - 스토리보드 제작 - 영상 생성＂ 단계를 순종적으로 따라야만 했습니다.

하지만 이번에 우리는 두 가지 혁명적인 변화를 가져왔습니다.

완전한 ＂화이트 박스＂와 창의적 자유: 우리는 여러분에게 하부 레이어에 대한 제어권을 부여했습니다. 번거로운 전체 프로세스를 거치고 싶지 않으신가요? 이미지를 직접 입력하고 움직이게 만들고 싶으신가요? ＂프롬프트＂만 최적화하고 싶으신가요? 전혀 문제없습니다! 불필요한 단계는 무엇이든 건너뛸 수 있으며, 창작을 매우 유연하고 집중력 있게 만들 수 있습니다.
진정으로 ＂재사용 가능한 자산＂이 되는 경험: 더 이상 이전처럼 새로운 프로젝트를 시작할 때마다 AI에게 자신의 선호도를 고통스럽게 다시 설명할 필요가 없습니다. 실전에서 AI와 함께 공동 창작하고 축적한 전문 지식, 작업 습관, 시청각적 미학을 이제 ＂표준화된 문서＂로 기록할 수 있습니다. 여러분의 ＂전문적인 창작 비결＂을 진정으로 ＂재사용 가능한 디지털 자산＂으로 바꾸고, 사용할수록 점점 더 사용하기 편리해지는 전용 AI 크루를 훈련시키세요.

이 모든 것을 뒷받침하는 핵심은 우리가 새로 출시한 스킬 시스템(Skill System)입니다. Flova가 각계각층의 전문가들이 모인 ＂AI 영화 및 TV 기지＂라면, 스킬은 여러분이 이 AI 크루에게 보내는 ＂연출 의도 및 제작 매뉴얼＂입니다.

🎞️ 스킬의 구조와 목적: ＂제작 크루의 관점＂에서 스킬 이해하기

스킬 파일에는 여러 개의 <tag> 태그가 있지만 겁먹지 마세요. 사실 이 태그들은 제작 크루의 각 핵심 업무를 나타냅니다. 스킬은 다음 파티션들로 구성되며, 각 파티션은 서브 에이전트의 작업 가이드라인에 대응합니다(시스템에 대한 자세한 내용은 [스킬 시스템 - 파티션 구조]를 참조하세요). 시스템이 여러분의 스킬을 로드하면, 이 태그 안에 있는 요구사항들을 해당 ＂AI 직원＂들에게 자동으로 배분합니다.

스킬 내 파티션 라벨 / 서브 에이전트 도구 설명 / 제작팀 내 해당 역할 / 구체적인 업무 및 제어 포인트

<Process Planning> / 총괄 기획자 / 조감독 혹은 실행 감독 / 예술적 창작에는 간섭하지 않고, ＂무엇을 먼저 하고 무엇을 다음에 할지＂에만 집중합니다. 각 부서가 언제 현장에 투입되어야 하는지(의존 관계), 그리고 언제 감독(사용자)에게 확인을 요청하기 위해 멈춰야 하는지를 결정합니다.

<Asset Analysis> / 멀티모달 머신러닝 크리에이티브 분석 도구 / 감독 보조 혹은 제작 조정 보조 혹은 대본 보조 / 참조 크리에이티브(영상/문서/이미지 등)를 해체하는 역할을 담당합니다. 예를 들어, 고전 영화 클립을 입력하면 ＂영화 분석＂을 수행하여 카메라 이동 궤적, 물리적 동작, 심지어 내부의 색상 정보까지 정확하게 추출하여 하위 부서에 전달합니다.

<Storyboard Design> / 영상 스토리보드 디자이너 / 시나리오 작가 + 스토리보드 작가 / 대본 및 샷 기획을 담당합니다. 누가 등장할지, 각 장면에서 무엇을 촬영할지, 샷 크기를 어떻게 설정할지, 동작을 어떻게 수행할지 결정합니다. 여기서 생성은 처리되지 않으며, ＂촬영 계획＂만 수립됩니다.

<Media Generation> / 미디어 생성기 / 촬영 감독 (DP) / 크리에이티브 생성 및 에셋 바인딩을 담당합니다. 어떤 생성 모델(기기 선택)을 사용할지, 어떤 해상도를 채택할지 결정해야 합니다. 역할에 적합한 배우를 선별하고 시각적 이미지를 만드는 것이 포함됩니다. 장면의 연속성을 보장하기 위해 특정 참조 이미지(배우의 외모)와 음색(나레이션)을 해당 샷에 단단히 바인딩하는 역할을 합니다.

<Prompt Writing> / 프롬프트 최적화 도구 (미디어 생성기) / 아트 디렉터 (PD) 혹은 사운드 디렉터 (SD) / 샷 언어, 조명 및 질감을 마스터합니다. 여러분의 미학을 기계가 이해할 수 있도록 번역합니다. 여기서 ＂시각적 규칙＂을 하드 코딩합니다. 어떤 초점 거리(50mm/광각)를 사용할지, 어떤 조명(예: 키아로스쿠로 대비)을 적용할지, 어떤 색조를 설정할지, 어떤 저품질 특수 효과를 제외할지(네거티브 프롬프트) 등을 정합니다.

<Video Editing> / 영상 편집기 / 편집 기사 / 포스트 프로덕션 편집 및 합성을 담당합니다. 모든 클립을 받은 후, 타임라인에 따라 어떻게 이어 붙일지, 오디오 트랙을 어떻게 맞출지, 그리고 최종적으로 완성된 영상을 출력할지 결정합니다.

💡 핵심 로직:

AI는 모든 것을 한꺼번에 읽고 무계획적으로 행동하지 않습니다. 필요할 때마다 로드됩니다. 예를 들어, 스토리보드 설계 단계에서는 <storyboard_designer>의 말만 듣고, 영상 생성 단계에서는 <media_generator>와 <write_the_prompt>만 확인합니다. 각자 고유의 책임이 있으며 서로 간섭하지 않습니다.

📄 Final_Video_Spec.md와 <text_editor>란 무엇인가요:

공식 워크플로우에는 위 표에 언급되지 않은 ＂최종 영상 사양(Final Video Specifications)＂ 컴파일이 포함되어 있습니다. 이 섹션에는 영상 제목, 유형, 종횡비, 길이, 시각적 스타일, 언어, 모델 선호도 등 기본 생성 정보를 저장하여 전체 생성 과정 동안 영상 크리에이티브 생성이 정확하고 오류 없이 이루어지도록 보장합니다. 따라서 워크플로우를 작성할 때 이 도구는 스토리보드 생성 전에 추가되어야 하지만, 스킬의 다른 섹션을 작성할 때는 존재하지 않습니다.

⬇️감독님들, 시각적 스타일에 대한 명확한 묘사가 있다면 여기에 작성해 주세요~⬇️

⚠️ </> 형식은 표준화되어 있음에 유의하세요:

Markdown 형식으로 스킬을 편집할 때(AI가 이 단계를 처리하도록 선택할 수도 있음), 형식의 정확성을 보장해야 합니다. 그렇지 않으면 해당 섹션의 내용이 유효하지 않게 됩니다.

파티션 제목은 반드시 위 표에 나열된 것이어야 합니다.
파티션의 형식은 템플릿에 따라 엄격하게 작성되어야 합니다. 예: <planner>로 시작하여 </planner>로 끝남.

✨ 이 스킬이 얼마나 많은 시간과 노력을 아껴줄 수 있을까요?

전문 창작자로서 여러분은 자신만의 독창적인 워크플로우와 미학적 기준을 가지고 있습니다. 스킬 시스템의 가장 큰 가치는 ＂여러분의 전문적인 경험을 자산으로 전환하는 것＂입니다.

＂천편일률적인＂ AI 느낌에서 완전히 벗어나기: AI의 기본 미학은 종종 평범하고 불안정합니다. 스킬을 통해 여러분만의 전용 조명, 카메라 언어, 색상 선호도를 ＂가르쳐서＂ 각 사용자마다 다른 개성을 구현할 수 있습니다.
전용 SOP 구축(반복 재사용 가능): 예를 들어, 리뷰 영상, 자동차 광고, MV의 프로세스는 완전히 다릅니다. ＂자동차 광고 스킬＂을 한 번 정교하게 다듬어 놓으면, 매번 처음부터 시작할 필요 없이 나중에 유사한 프로젝트에 직접 적용할 수 있습니다.
매우 유연하게, 원하는 곳에서 시작: ＂대본 작성 -> 이미지 생성 -> 애니메이션화＂의 전체 과정을 따를 필요가 없습니다. 이미 Midjourney로 생성한 이미지가 있다면, 프로세스를 바로 ＂애니메이션화＂부터 시작할 수 있습니다.
AI의 전문적 사각지대 보완: AI가 회사의 전문 용어나 고객의 금기 사항을 이해하지 못하나요? 이를 스킬에 기록하면 AI는 여러분의 헌신적인 베테랑 직원이 될 것입니다.

🛠️ 자신만의 전용 스킬을 어떻게 재작성하나요?

직접 미세 조정하고 싶다면 각 파티션에 대한 작성 제안은 다음과 같습니다.

‘Process Planning’: 에이전트가 도구를 호출하는 프로세스 결정 (각 부서의 작업 순서 조율)

많은 창작자들이 이전 FlovaAI의 기본 프로세스가 너무 경직되어 시간을 많이 낭비한다고 느꼈습니다. 사실 이 모든 것은 <Process Planning>에서 결정됩니다.

<Process Planning>은 도구의 목적을 간결하고 명확하게 설명해야 하며, 여기서 구체적인 실행 방식에 대해 자세히 설명할 필요는 없습니다. 포함할 권장 내용:

창의적 프로세스를 명확하게 묘사:
- 완전한 창의적 프로세스를 개발할 수 있습니다: ＂1단계: 영상 사양 작성 -> 2단계: 스토리보드 작성 -> 3단계: 이미지 생성 -> 4단계: 영상 생성 -> 5단계: 편집 및 합성＂
- 단일 지점 직접 액세스도 요청할 수 있습니다: ＂1단계: 영상 생성 -> 2단계: 편집 및 합성＂, ＂1단계: 음악 생성, 일시 중지 및 확인 필요 없음＂
태그 전후의 순서 및 의존 관계:
- 예를 들어, 오디오 드라이버가 필요한 영상 생성(뮤직비디오의 립싱크 등)의 경우, 영상 생성 전에 오디오가 준비되어야 하며, 오디오는 영상 생성을 위한 필수 크리에이티브이므로 건너뛸 수 없음을 명확히 해야 합니다.

‘Asset Analysis’: 멀티모달 머신러닝 모델에게 요구사항 전달

이 멀티모달 머신러닝 분석 모델은 여러분이 업로드한 파일(현재 영상, 이미지, 오디오, 문서 포함)을 처리하는 데만 사용됩니다. 크리에이티브에 대한 여러분의 이해나 분할 기준을 포함할 수 있습니다.

예를 들어:

내용이나 리듬을 변경하지 않고 내 대본을 분석할 도구가 필요합니다.
내가 업로드한 영상을 분해할 도구가 필요하지만, 영상 스토리보드 분해의 리듬과 길이는 다음 사양을 준수해야 합니다.

‘Storyboard Design’: 무작위 생성이 아닌 여러분의 ＂연출 비전＂에 따라 AI가 촬영하게 하세요

캐릭터 디자이너, 스토리보드 기획자, 오디오 디자이너, 편집자에게 각각 별도의 작업 요구사항을 제공해야 합니다.

＂핵심 요소＂는 어떻게 기획되어야 하나요?
- 주체: 캐릭터(외형, 다양한 룩의 존재 여부), 캐릭터의 목소리 톤 등.
- 장면: 공간 구조와 주요 위치를 설명해야 하는지 여부.
- 핵심 아이템
- ......
＂영상 스토리보드＂는 어떻게 기획되어야 하나요? (장르마다 요구사항이 다름)
- 샷 언어: 여러 개의 컷 샷이 포함된 15초 롱테이크, 6-10초의 평면적 서사 샷 등.
- 샷 설명: 캐릭터, 장면, 스토리 내용, 캐릭터 간 상호작용 방식 등이 포함되어야 합니다.
- ......
＂음성＂은 어떻게 기획되어야 하나요?
- 배경 음악: 하나 이상의 곡, 리듬에 따른 전환 여부 등.
- 내레이터/음성 해설: 내레이터 필요 여부, 규칙 등.
- ......

⚠️ 참고 ＂역할＂: ＂영상 스토리보드 기획자＂는 대본 및 샷 기획만 담당하며, 여기서 생성 세부 사항을 작성할 필요는 없습니다. 오직 ＂촬영 계획＂만 수립하면 됩니다.

‘Media Generation’: 생성 모델 및 참조 콘텐츠 사양 결정

프로젝트마다 필요한 기능이 다릅니다. 궁극의 일관성을 원하시나요? 아니면 강력한 단일 프레임 이미지 품질을 원하시나요?

여기에 명확하게 기재하세요. 이미지에는 어떤 모델(예: Gemini)을 사용하고 영상에는 어떤 모델(예: Seedance 2.0)을 사용할지 정합니다. 또한 다음과 같은 규칙을 강제할 수도 있습니다: ＂외모 일관성을 보장하기 위해 이후의 모든 샷은 첫 번째 샷의 캐릭터 이미지를 참조해야 함.＂

⚠️ 참고: 모델이 지원하는 참조 기능 및 해상도의 한계는 모델 공식 API 인터페이스의 요구사항에 따라 달라집니다. 모델의 공식 인터페이스 정보를 참조하세요. 모델 및 해상도와 같은 정보를 지정하지 않기로 선택하면 Flova가 기본적으로 가장 적합한 옵션을 매칭해 드립니다.

Flova AI 시각 생성 도구 및 모델 목록:

공식 도구 이름 / 한글 설명 / 지원 모델 목록

TextToImage / 텍스트를 이미지로 / Seedream 4.5, Nano Banana Pro(Gemini 3 Pro Image). Nano Banana 2(Gemini 3.1 Flash Image). Midjourney V7. GPT Image 1.5. Flux.1 Kontext Pro ImageToImage / 이미지를 이미지로 / Seedream 4.5. Nano Banana Pro(Gemini 3 Pro Image), Nano Banana 2(Gemini 3.1 Flash Image), Midjourney V7, GPT Image 1.5, Flux.1 Kontext Pro MultiModalToVideo / 전능 참조 (멀티모달 머신러닝 영상) / Seedance 2.0, Seedance 2.0 Fast· ImagesToVideo / 멀티모달 머신러닝 영상 (여러 이미지를 영상으로) / Kling 3.0 Omni, Vidu(Q2) FirstFrameToVideo / 첫 프레임 기반 영상 생성 / Google Veo3.1 Fast, Sora-2, Sora-2-Pro, Wan2.6, Vidu(Q3-Pro), Seedance 1.5 Pro Audio, Grok Imagine Video, Kling 3.0 Audio, MiniMax Hailuo 2.3 VideoInterp / 시작과 끝 프레임으로 영상 생성 / Google Veo3.1 Fast, Seedance 1.5 Pro Audio, Kling 3.0 Audio, Vidu(Q3-Pro), MiniMax Hailuo 2.3 TextToVideo / 텍스트를 영상으로 / Google Veo3.1 Fast, Sora-2, Wan2.6, Sora-2-Pro, Kling 3.0 Audio, Seedance 1.5 Pro Audio, Seedance 2.0, Seedance 2.0 Fast ImageToVideoByAudio / 오디오 기반 영상 생성 / OmniHuman1.5 lyrics_to_song / 음악 생성 / Suno 5, Mureka 8 text to narrtion / 내레이터 생성 / ElevenLabs v3, Doubao

‘Prompt Writing’: 개인화된 미학 주입

이곳에서 화면의 질감이 결정됩니다. 단순히 ＂예쁜 그림＂이라고 쓰지 말고, 여러분의 화면 효과, 샷 언어, 특히 다양한 모델 사용 경험 등 전문 지식을 입력하세요.

이미지 생성을 위한 프롬프트 작성법과 영상 생성을 별도로 지정하세요.
- 프롬프트 작성 구조: 예: 스타일(전문 용어) + 내용(자연어) + 샷 언어(전문 용어) + 감정 단어.
- 샷 언어: Over-the-shoulder shot(숄더 샷), Dutch angle(경사 구도) 사용을 지정합니다.
- 빛과 색상: deep teal-cyan shadows dominating 90%, zero warm fill(90%를 차지하는 딥 틸-시안 그림자, 웜 필 라이트 없음) 등을 작성합니다.
- ......
네거티브 프롬프트 단어 설정: 포스트 프로덕션 편집을 용이하게 하기 위해 ＂자막 없음＂, ＂음악 없음＂ 등을 명확하게 작성합니다.
일부 모델은 특정 형식을 요구합니다. 안정적인 생성을 위해 공식 어시스턴트에게 문의하거나 모델의 공식 API 인터페이스 문서를 참조할 수 있습니다. 예를 들어: Kling 3.0 Omni 모델에서 참조 이미지를 사용할 때, 프롬프트는 반드시 <<<image 1>>> 형식을 사용해야 하며, 그렇지 않으면 참조에 실패합니다.

‘Video Editing’: 영상 편집 시 주의사항은?

Flova AI가 지원하는 기본 편집 기능: 볼륨 조절, 트랙 음소거, 오디오 및 영상 속도 변경 등. 창작 과정에서 겪은 문제들을 사양으로 요약하여 여기에 작성하면 AI가 다음번에 같은 실수를 반복하는 것을 방지할 수 있습니다.

예를 들어:

디지털 휴먼을 사용하여 립싱크를 할 때, 립싱크 영상의 속도는 변경할 수 없습니다.
뮤직비디오 콘텐츠를 제작할 때, 편집자는 오디오 트랙이 중복되지 않도록 모든 영상 트랙을 음소거하고 BGM 오디오만 음소거 해제 상태로 유지해야 합니다.
......

🔥 자주 묻는 질문(FAQ) —— 함정을 피하기 위한 가이드

Q1: 모델의 성능이 갑자기 나빠졌어요. 지난 이틀과는 완전히 달라요!

근본적인 로직 공개: 많은 창작자들이 대형 모델의 생성에 ＂데이터 도메인 시프트(Data Domain Shift)＂ 문제가 있다는 사실과 모델마다 스타일 및 효과 면에서 강점이 다르다는 점을 모르고 있습니다. 실사 스타일과 SF 테마에 대한 프롬프트 효과는 모델마다 크게 다를 수 있습니다. 개선 방법: 모델을 위해 이미지 묘사에 대한 전문 지식을 ＂정제＂할 수 있습니다. 스킬의 <Prompt Writing> 섹션으로 들어가 필름 사진, 파스텔 톤, 풍부한 디테일, 빛과 그림자의 전환, 높은 대비, 풍부한 레이어, 몽환적인 미학, 빛의 미학, 로모 효과 등 전문 용어를 사용하여 시각적 선호도를 묘사하세요. 또는 <Media Generation>에서 각 샷 생성 시 만족스러운 참조 이미지(매팅 이미지)를 포함하도록 강제하여 스타일을 고정하세요.

Q2: 우리 회사만의 전문적인 워크플로우가 있는데, Flova의 기본 워크플로우와 다릅니다. 어떻게 수정하나요?

수정 방법: <Process Planning> 파티션을 수정하세요. 단계 순서를 완전히 재작성할 수 있습니다. 예를 들어, 규칙이 ＂내레이션 음성 해설을 먼저 제작한 다음 내레이션 시간에 맞춰 영상을 생성하는 것＂이라면 Planner에 다음과 같이 지정할 수 있습니다: 1. 오디오 생성 -> 2. 오디오 길이 분석 -> 3. 해당 길이의 영상 생성.

Q3: AI가 생성한 크리에이티브(이미지 또는 영상)가 시각적으로 매력적이지 않으면 어떻게 고치나요?

수정 방법: 결과물이 좋지 않으면 대화창에서 바로 다시 그려달라고 요청하세요(＂3번 샷의 조명이 너무 어두워요, 이 샷을 다시 해주세요＂). 또한 프로젝트의 Final_Video_Spec.md(최종 사양서)에 특정 요구사항을 일시적으로 추가할 수 있으며, 이는 스킬의 기본 설정을 덮어씁니다.

Q4: 프로세스가 너무 번거로워요! 저는 그냥 이미지를 움직이게 만들고 싶을 뿐인데, 대본이나 스토리보드 작성 같은 번거로운 과정을 거치고 싶지 않아요!

수정 방법:

새로운 버전의 Flova는 스킬을 로드하지 않고도 단일 크리에이티브를 직접 생성하거나 프롬프트를 개별적으로 최적화하는 것을 지원할 수 있습니다.
두 개 이상의 도구 호출이 필요하거나 프롬프트 작성 경험이 확실하다면 <planner>를 간소화할 수 있습니다! 가벼운 새 스킬을 만들고 <Storyboard Design>과 같이 사용하지 않는 섹션을 직접 삭제하세요.

Q5: AI가 특정 전문 분야의 지식(예: 특정 의료 기기나 특수 카메라 위치 용어)을 계속 오해하면 어떻게 해야 하나요?

수정 방법: <Storyboard Design> 또는 <Prompt Writing>에 ＂용어 사전＂을 만드세요. 예를 들어 다음과 같이 작성합니다: ＂참고: 내가 『푸시 샷』을 언급하면 프롬프트에서 『Slow dolly shot in』으로 번역하고, 줌 사용은 엄격히 금지합니다.＂ 전문 지식을 학습시키면 AI는 더 이상 초보자가 아닐 것입니다.

Q6: 사용하고 싶은 모델(예: 특정 애니메이션 모델)이 공식 스킬 추천 목록에 없으면 어떻게 하나요?

수정 방법: <media_generator> 파티션에서 호출하려는 모델의 이름과 해상도를 지정하기만 하면 됩니다(위 목록 참조). 플랫폼에서 지원하는 모델 풀이기만 하면 자유롭게 전환할 수 있습니다. 사용하고 싶은 모델이 Flova에 없나요? 공식 고객 서비스에 원하는 모델을 제출해 주세요!

Q7: 공식 기본 스킬에 글자가 너무 많아요. 이해하기 어렵고 읽고 싶지 않은데 어떡하죠?

수정 방법: 여러분의 워크플로우와 가장 유사한 스킬을 선택하여 공식 스킬을 바탕으로 부분적인 수정을 하는 것을 권장합니다. 궁금한 점이 있거나 스킬이 작동하지 않는 문제가 발생하면 언제든지 공식 사용자 그룹에 공유해 주세요. 저희 전문가 팀이 답변해 드리겠습니다.

앞으로 Flova는 스킬 작성을 지원하기 위해 특별히 설계된 AI 도구를 출시할 계획입니다. 과거의 워크플로우 경험을 업로드하기만 하면 Flova가 이를 스킬 문서로 변환하도록 도와줄 것입니다. 내부 테스트 단계 동안 워크플로우를 스킬로 변환한 경험을 저희와 공유하여 더 전문적인 스킬 도구 에이전트를 출시할 수 있도록 도와주세요!

💬 아직 궁금증이 해결되지 않았나요?

공식 운영팀에 연락하여 그룹에 가입하세요. 작업 링크와 질문을 지참하여 더 많은 일선 창작자들과 함께 여러분만의 AI 시대 연출 통찰력을 나누어 보세요!

위의 내용은 시작점 역할을 하기 위한 Flova AI의 공식 기본 워크플로우의 기초적인 작성법일 뿐입니다. 모든 창작자가 자신의 미학과 전문 지식을 스킬에 담아 더욱 놀랍고 독창적인 플레이를 창조하고 잠금 해제하시기를 기대합니다!

이 페이지의 내용