Guida alla scrittura degli Skill
In passato, creando con Flova AI, molti avevano la sensazione di aprire una scatola a sorpresa (blind box), urlando le proprie richieste a una scatola nera (Black box), ottenendo risultati tutti uguali e senza poter controllare con precisione il processo —— come in una rigida catena di montaggio, costretti a seguire passo dopo passo il sistema predefinito: scrivi uno script - crea uno storyboard - genera un video.
Ma questa volta abbiamo introdotto due cambiamenti rivoluzionari:
- Scatola Bianca (White Box) completa e libertà creativa: Ti abbiamo dato il controllo sul livello sottostante. Non vuoi seguire l'intero processo macchinoso? Vuoi inserire direttamente un'immagine e animarla? Vuoi solo ottimizzare il Prompt? Nessun problema! Puoi saltare qualsiasi passaggio non necessario, rendendo la creazione estremamente flessibile e focalizzata.
- L'esperienza diventa davvero un asset riutilizzabile: Non dovrai più spiegare faticosamente le tue preferenze all'AI ogni volta che inizi un nuovo progetto, come facevi prima. Le tue conoscenze professionali, le tue abitudini di lavoro e l'estetica audiovisiva co-creata e accumulata con l'AI in scenari reali possono ora essere registrate come un documento standardizzato —— trasformando i tuoi segreti creativi professionali in veri asset digitali riutilizzabili, e addestrando una troupe AI dedicata che diventa sempre più intuitiva con l'uso.
Il cuore di tutto questo è il nostro nuovo Sistema di Skill. Se Flova è una base cinematografica e televisiva AI con professionisti di ogni tipo, allora lo Skill è la nota di regia + manuale di produzione che invii a questa troupe AI.
Struttura e scopo dello Skill: Comprendere lo Skill dalla Prospettiva della Troupe
Il file Skill contiene diversi tag <tag>, ma non lasciarti intimidire. In realtà, questi tag rappresentano ogni ruolo centrale nella troupe di produzione. Uno Skill è composto dalle seguenti partizioni, ognuna corrispondente alle linee guida di lavoro di un sub-Agent (Per i dettagli sul sistema, vedi [Sistema di Skill - Struttura delle partizioni]). Quando il sistema carica il tuo Skill, distribuirà automaticamente i requisiti in questi tag ai corrispondenti dipendenti AI:
Etichetta partizione nello Skill | Descrizione strumento Sub-Agent | Posizione nella troupe | Compiti specifici e punti di controllo <Process Planning> | Pianificatore Capo | Aiuto Regista / Regista Esecutivo | Non interferisce con la creazione artistica, si concentra solo su cosa fare prima e cosa fare dopo. Determina quando ogni dipartimento deve entrare in scena (relazioni di dipendenza) e quando deve fermarsi per chiedere conferma al regista (utente). <Asset Analysis> | Strumento analisi creativa Machine Learning Multimodale | Assistente alla Regia / Coordinatore Creativo / Assistente alla Sceneggiatura | Responsabile della decostruzione dei riferimenti creativi (video/documenti/immagini, ecc.). Ad esempio, se inserisci la clip di un film classico, si occupa dell'analisi del film, estraendo accuratamente la traiettoria della camera, le azioni fisiche e persino i colori, trasmettendoli ai dipartimenti a valle. <Storyboard Design> | Designer Storyboard Video | Sceneggiatore + Storyboard Artist | Responsabile della pianificazione di script e inquadrature. Determina chi appare, cosa filmare in ogni scena, la dimensione dell'inquadratura e come devono essere eseguite le azioni. Qui non viene gestita la generazione, viene solo formulato il piano di ripresa. <Media Generation> | Generatore di Media | Direttore della Fotografia (DP) | Responsabile della generazione creativa e del collegamento degli asset. Deve determinare quale modello di generazione usare e quale risoluzione adottare. Include la selezione degli attori adatti e la creazione delle immagini visive. Assicura che immagini di riferimento (aspetto degli attori) e timbri vocali (voci fuori campo) siano legati alle inquadrature per garantire la continuità della scena. <Prompt Writing> | Strumento Ottimizzazione Prompt (Media Generator) | Production Designer (PD) / Sound Designer (SD) | Gestisce il linguaggio delle inquadrature, le luci e la consistenza. Traduce la tua estetica in un linguaggio comprensibile per la macchina. Qui imposti le regole visive: lunghezza focale (50mm/grandangolo), illuminazione (es. Chiaroscuro ad alto contrasto), tonalità cromatica ed effetti di bassa qualità da escludere (prompt negativi). <Video Editing> | Editor Video | Montatore | Responsabile del montaggio post-produzione e della composizione. Dopo aver ricevuto tutte le clip, decide come assemblarle sulla timeline, come allineare le tracce audio e infine esportare il film finito.
Logica Centrale:
L'AI non legge tutto in una volta agendo a caso. Viene caricata su richiesta. Ad esempio, nella fase di progettazione dello storyboard, ascolta solo <storyboard_designer>; nella fase di generazione video, guarda solo <media_generator> e <write_the_prompt>. Ognuno ha le proprie responsabilità e non interferisce con gli altri.
Cos'è Final_Video_Spec.md e <text_editor>:
Il workflow ufficiale include la compilazione delle Specifiche Finali del Video, non menzionate nella tabella precedente. Questa sezione memorizza informazioni come titolo del video, tipo, rapporto d'aspetto, durata, stile visivo, lingua, preferenza del modello, ecc. Si tratta di informazioni di generazione di base per garantire che l'intero processo sia accurato e privo di errori. Pertanto, quando si scrive il workflow, questo strumento va aggiunto prima della creazione dello storyboard, ma non esiste in altre sezioni dello skill.
⬇️Cari registi, se avete una descrizione chiara dello stile visivo, potete scriverla qui~⬇️
Nota che il formato </> è standardizzato:
Quando modifichi uno Skill in formato Markdown (puoi lasciare che se ne occupi l'AI), devi assicurarti che il formato sia accurato, altrimenti il contenuto della sezione non sarà valido.
- I titoli delle partizioni devono essere quelli elencati nella tabella;
- Il formato della partizione deve seguire rigorosamente il template, ad esempio: iniziando con <planner> e terminando con </planner>;
Quanto tempo e fatica può farti risparmiare questo skill?
Come creatore professionista, hai il tuo workflow esclusivo e i tuoi standard estetici. Il valore più grande del Sistema di Skill è trasformare la tua esperienza professionale in asset:
- Addio definitivo al gusto AI omologato: L'estetica predefinita dell'AI è spesso mediocre e instabile. Tramite lo Skill, puoi insegnarle le tue luci, il tuo linguaggio di camera e le tue preferenze cromatiche, ottenendo risultati unici.
- Consolida la tua SOP esclusiva (riutilizzabile all'infinito): Ad esempio, i processi per testimonianze (oral endorsements), pubblicità di auto e video musicali (MV) sono completamente diversi. Una volta perfezionato uno Skill per Pubblicità Auto, potrai applicarlo direttamente a progetti simili in futuro senza ricominciare da zero.
- Estrema flessibilità, parti da dove vuoi: Non devi seguire l'intero processo script -> immagini -> animazione. Se hai già immagini generate con Midjourney, il tuo processo può iniziare direttamente dall'animazione.
- Colma le lacune professionali dell'AI: L'AI non capisce il gergo della tua azienda o i tabù dei tuoi clienti? Scrivili nello Skill e diventerà il tuo assistente esperto.
Come riscrivere il tuo Skill esclusivo?
Se vuoi perfezionarlo da solo, ecco i suggerimenti per ogni partizione:
Pianificazione del Processo: Determina l'ordine con cui l'Agent richiama gli strumenti (coordina la sequenza di lavoro)
Molti creatori sentivano che il processo predefinito di FlovaAI fosse troppo rigido. In realtà, tutto dipende dalla Pianificazione del Processo.
Pianificazione del Processo deve spiegare in modo conciso e chiaro lo scopo dello strumento, senza entrare nei dettagli delle pratiche specifiche. Contenuti suggeriti:
- Descrivi chiaramente il processo creativo:
- Puoi sviluppare un processo completo: Fase 1: Specifiche video -> Fase 2: Storyboard -> Fase 3: Immagini -> Fase 4: Video -> Fase 5: Montaggio
- Puoi richiedere un accesso diretto a un singolo punto: Fase 1: Genera video -> Fase 2: Montaggio; oppure Fase 1: Genera musica, senza pause per conferma
- Ordine e relazioni di dipendenza tra i tag:
- Ad esempio, per la generazione video che richiede audio (come il lip-sync nei video musicali), è necessario chiarire che l'audio deve essere pronto prima della generazione video e che l'audio è un elemento necessario non saltabile.
Analisi degli Asset: Comunica i tuoi requisiti al modello di Machine Learning Multimodale
Questo modello di analisi multimodale serve solo a elaborare i file caricati da te, inclusi: video, immagini, audio e documenti. Puoi includere la tua interpretazione degli elementi creativi o i criteri per suddividerli.
Ad esempio:
- Ho bisogno di strumenti per analizzare il mio script senza alterarne il contenuto o il ritmo;
- Ho bisogno di strumenti per smontare il video caricato, ma il ritmo e la durata dello storyboard devono rispettare le specifiche (come segue);
Progettazione dello Storyboard: Fai girare l'AI secondo la tua visione da regista invece di generare a caso
Devi fornire requisiti di lavoro separati rispettivamente a character designer, storyboard planner, audio designer ed editor:
- Come pianificare gli elementi chiave?
- Soggetto: Personaggio (aspetto, eventuali cambi di look), tono della voce, ecc.;
- Scena: Se è necessario spiegare la struttura spaziale e le posizioni chiave;
- Oggetto chiave
- ......
- Come pianificare lo storyboard video? (Generi diversi hanno requisiti diversi)
- Linguaggio dell'inquadratura: Piano sequenza di 15 secondi con più tagli, inquadrature narrative piatte di 6-10 secondi, ecc.;
- Descrizione dell'inquadratura: Deve includere personaggi, scene, trama, interazioni, ecc.;
- ......
- Come pianificare l'audio?
- Musica di sottofondo: Uno o più brani, cambi di ritmo, ecc.;
- Narratore/Voce fuori campo: Se necessario, quali sono le regole, ecc.;
- ......
Nota sul ruolo: Il video storyboard planner è responsabile solo della pianificazione di script e inquadrature; non c'è bisogno di scrivere qui i dettagli della generazione, va formulato solo il piano di ripresa.
Generazione dei Media: Determina il modello generativo e le specifiche dei contenuti di riferimento
Progetti diversi richiedono capacità diverse. Vuoi la massima coerenza o la migliore qualità della singola immagine?
Specifica qui: quale modello usare per le immagini (es. Gemini) e quale per i video (es. Seedance 2.0). Puoi anche imporre regole come: Tutte le inquadrature successive devono riferirsi all'immagine del personaggio della prima inquadratura per garantire la coerenza.
Nota: I limiti delle capacità di riferimento e della risoluzione dipendono dalle API ufficiali del modello. Se non specifichi modello e risoluzione, Flova sceglierà l'opzione predefinita più adatta.
Elenco degli strumenti e modelli di generazione visiva di Flova AI:
Nome ufficiale strumento | Spiegazione | Elenco modelli supportati TextToImage | Testo-Immagine | Seedream 4.5, Nano Banana Pro(Gemini 3 Pro Image), Nano Banana 2(Gemini 3.1 Flash Image), Midjourney V7, GPT Image 1.5, Flux.1 Kontext Pro ImageToImage | Immagine-Immagine | Seedream 4.5, Nano Banana Pro, Nano Banana 2, Midjourney V7, GPT Image 1.5, Flux.1 Kontext Pro MultiModalToVideo | Riferimento Onnipotente (Video multimodale) | Seedance 2.0, Seedance 2.0 Fast ImagesToVideo | Video multimodale (Immagini multiple a video) | Kling 3.0 Omni, Vidu(Q2) FirstFrameToVideo | Video dal primo fotogramma | Google Veo3.1 Fast, Sora-2, Sora-2-Pro, Wan2.6, Vidu(Q3-Pro), Seedance 1.5 Pro Audio, Grok Imagine Video, Kling 3.0 Audio, MiniMax Hailuo 2.3 VideoInterp | Video tra fotogrammi iniziale e finale | Google Veo3.1 Fast, Seedance 1.5 Pro Audio, Kling 3.0 Audio, Vidu(Q3-Pro), MiniMax Hailuo 2.3 TextToVideo | Testo-Video | Google Veo3.1 Fast, Sora-2, Wan2.6, Sora-2-Pro, Kling 3.0 Audio, Seedance 1.5 Pro Audio, Seedance 2.0, Seedance 2.0 Fast ImageToVideoByAudio | Generazione video guidata dall'audio | OmniHuman1.5 lyrics_to_song | Generazione musica | Suno 5, Mureka 8 text to narrtion | Generazione narratore | ElevenLabs v3, Doubao
Scrittura dei Prompt: Iniezione estetica personalizzata
Qui si decide la resa visiva dell'immagine. Non scrivere solo immagini belle, inserisci le tue conoscenze professionali su effetti, linguaggio di camera ed esperienza con i diversi modelli:
- Specifica separatamente il metodo di scrittura del prompt per la generazione di immagini e di video
- Struttura del Prompt: es. Stile (termine tecnico) + Contenuto (linguaggio naturale) + Linguaggio camera (termine tecnico) + Parole emozionali;
- Linguaggio camera: Specifica l'uso di Over-the-shoulder shot (inquadratura di spalla), Dutch angle (inquadratura inclinata);
- Luci e Colori: Scrivi deep teal-cyan shadows dominating 90%, zero warm fill (ombre verde acqua/ciano profonde al 90%, nessuna luce di riempimento calda);
- ecc. ......
- Imposta prompt negativi: Scrivi chiaramente no subtitles e no music per facilitare il montaggio post-produzione.
- Alcuni modelli richiedono formati specifici. Ad esempio: Quando si usa un'immagine di riferimento nel modello Kling 3.0 Omni, il prompt deve usare il formato <<<image 1>>>, altrimenti il riferimento fallirà.
Montaggio Video: Cosa notare nel montaggio video?
Capacità di montaggio base supportate da Flova AI: regolazione del volume, silenziamento tracce, cambio velocità audio e video, ecc. Puoi riassumere i problemi riscontrati durante il processo creativo in specifiche da scrivere qui per evitare che l'AI ripeta gli stessi errori.
Ad esempio:
- Quando si usa un umano digitale per il lip-sync, la velocità del video non può essere cambiata;
- Creando video musicali, l'editor deve silenziare tutte le tracce video e mantenere solo l'audio BGM per evitare tracce duplicate.
- ......
Domande Frequenti (FAQ) —— Guida per evitare errori
D1: Perché le prestazioni del modello sono peggiorate improvvisamente rispetto a ieri?!
Logica sottostante: Molti creatori ignorano che i grandi modelli soffrono di Data Domain Shift, e modelli diversi hanno punti di forza diversi in termini di stile ed effetti. I prompt per stili realistici o fantascientifici variano molto tra i modelli. Come migliorare: Puoi affinare le conoscenze professionali della descrizione dell'immagine per il modello. Entra nella sezione <Prompt Writing> dello Skill e descrivi le tue preferenze visive con termini professionali (fotografia cinematografica, colori pastello, dettagli ricchi, transizioni di luci e ombre, alto contrasto, estetica lomo, ecc.). Oppure in <Media Generation>, imponi che ogni generazione includa un'immagine di riferimento soddisfacente per ancorare lo stile.
D2: Ho un workflow professionale per la mia azienda, diverso da quello predefinito. Come lo modifico?
Come modificare: Modifica la partizione <Process Planning>. Puoi riscrivere completamente la sequenza delle fasi. Ad esempio, se la tua regola è la voce fuori campo deve essere prodotta prima e poi il video viene generato in base alla durata della narrazione, specifica nel Planner: 1. Genera Audio -> 2. Analizza durata Audio -> 3. Genera Video della lunghezza corrispondente.
D3: Se un'immagine o un video generati dall'AI non sono belli, come rimedio?
Come modificare: Quando incontri risultati scadenti, chiedi di rifarli direttamente nella chat (La luce nell'inquadratura 3 è troppo fioca, rifalla). Puoi anche aggiungere temporaneamente un requisito specifico nel Final_Video_Spec.md del progetto, che sovrascriverà le impostazioni predefinite dello Skill.
D4: Il processo è troppo lungo! Voglio solo animare un'immagine, non scrivere script e storyboard!
Come modificare:
- La nuova versione di Flova supporta la generazione diretta di singoli elementi o l'ottimizzazione dei prompt senza caricare Skill;
- Se hai esperienza nella scrittura di prompt, puoi snellire <planner>! Crea un nuovo Skill leggero ed elimina sezioni inutilizzate come <Storyboard Design>.
D5: Cosa fare se l'AI fraintende i termini del mio settore professionale (es. un dispositivo medico specifico o una posizione della camera)?
Come modificare: Crea un Glossario dei termini in <Storyboard Design> o <Prompt Writing>. Ad esempio: Nota: Quando dico push shot, traducilo in Slow dolly shot in nel prompt; l'uso dello zoom è vietato. Alimentala con conoscenze professionali e non sarà più una dilettante.
D6: Cosa fare se il modello che voglio usare (es. uno specifico per anime) non è tra i consigliati?
Come modificare: Specifica il nome e la risoluzione del modello che vuoi richiamare nella partizione <media_generator> (vedi elenco sopra). Se il modello è supportato dalla piattaforma, puoi sceglierlo liberamente. Se il modello che cerchi non è disponibile, contatta il servizio clienti per suggerirlo!
D7: Lo Skill ufficiale predefinito ha troppe parole. Non ho voglia di leggerle, cosa faccio?
Come modificare: Ti consigliamo di scegliere lo Skill più vicino al tuo workflow e fare modifiche locali. Se hai domande o lo Skill non funziona, scrivi nel gruppo ufficiale degli utenti: il nostro team ti aiuterà.
In futuro, Flova lancerà uno strumento AI per assistere nella scrittura degli Skill. Basterà caricare il tuo workflow passato e Flova lo convertirà in un documento Skill. Durante la fase di test, condividi con noi la tua esperienza per aiutarci a creare un Agent ancora più professionale!
Non abbiamo ancora risposto alle tue domande?
Contatta il team operativo ufficiale per unirti al gruppo, porta il link del tuo lavoro e le tue domande, e confrontati con altri creatori sulle tue intuizioni da regista dell'era AI!
Quanto sopra è solo la base del workflow ufficiale di Flova AI, intesa come punto di partenza. Non vediamo l'ora che ogni creatore incorpori la propria estetica e professionalità negli Skill per sbloccare modalità di gioco esclusive e incredibili!
Ultimo aggiornamento il