Guía de escritura de Skills
En el pasado, al crear con Flova AI, muchas personas sentían que estaban “abriendo una caja sorpresa”, gritando sus requisitos a una caja negra, obteniendo resultados genéricos y sin poder controlar el proceso con precisión —— como una línea de ensamblaje rígida, teniendo que seguir obedientemente el flujo establecido por el sistema de “escribir un guion - crear un guion gráfico - generar un video” paso a paso.
Pero esta vez, hemos traído dos cambios revolucionarios:
- “Caja blanca” completa y libertad creativa: Te hemos dado el control sobre la capa subyacente. ¿No quieres pasar por todo el proceso pesado? ¿Quieres ingresar directamente una imagen y hacer que se mueva? ¿Solo quieres optimizar el "Prompt"? ¡No hay problema! Puedes saltarte cualquier paso innecesario, haciendo que la creación sea extremadamente flexible y enfocada.
- La experiencia se convierte realmente en “activos reutilizables”: Ya no tienes que explicar laboriosamente tus preferencias a la IA cada vez que comienzas un nuevo proyecto, como hacías antes. Tu conocimiento profesional, hábitos de trabajo y estética audiovisual co-creada y acumulada con la IA en la práctica real ahora pueden registrarse como un “documento estandarizado” —— convirtiendo tus “secretos creativos profesionales” en verdaderos “activos digitales reutilizables”, y entrenando a un equipo de IA dedicado que se vuelve cada vez más fácil de usar con el tiempo.
El núcleo que sustenta todo esto es nuestro nuevo Sistema de Skills. Si Flova es una “base cinematográfica y televisiva de IA” con profesionales de todos los ámbitos, entonces una Skill es la “declaración del director + manual de producción” que envías a este equipo de IA.
🎞️ Estructura y propósito de una Skill: Entendiendo la Skill desde la “perspectiva del equipo de producción”
Hay un montón de etiquetas <tag> en el archivo de la Skill; no dejes que te intimiden. De hecho, estas etiquetas representan cada puesto principal en el equipo de producción. Una Skill consta de las siguientes particiones, cada una correspondiendo a las pautas de trabajo de un sub-agente (Para detalles sobre el sistema, consulta [Sistema de Skills - Estructura de particiones]).
Cuando el sistema cargue tu Skill, distribuirá automáticamente los requisitos en estas etiquetas a los “empleados de IA” correspondientes:
| Etiqueta de partición en la Skill | Descripción de la herramienta del sub-agente | Posición correspondiente en el equipo de producción | Su trabajo específico y tus puntos de control |
|---|---|---|---|
| <Process Planning> | Planificador líder | Director asistente / Director ejecutivo | No interfiere con la creación artística, solo se enfoca en “qué hacer primero y qué hacer después”. Determina cuándo debe entrar en escena cada departamento (relaciones de dependencia), y cuándo debe detenerse para pedir confirmación al director (usuario). |
| <Asset Analysis> | Herramienta de análisis de creativos de aprendizaje automático multimodal | Asistente de dirección / Asistente de coordinación creativa / Asistente de guion | Responsable de desglosar los creativos de referencia (videos/documentos/imágenes, etc.). Por ejemplo, si ingresas un clip de una película clásica, se encarga del “análisis cinematográfico”, extrayendo con precisión la trayectoria del movimiento de cámara, las acciones físicas e incluso la información de color, para enviarlos a los departamentos posteriores. |
| <Storyboard Design> | Diseñador de guiones gráficos de video | Guionista + Artista de guion gráfico | Responsable del guion y la planificación de tomas. Determina quién aparece, qué grabar en cada escena, cómo establecer el tamaño de la toma y cómo se deben ejecutar las acciones. Aquí no se gestiona la generación; solo se formula el “plan de rodaje”. |
| <Media Generation> | Generador de medios | Director de fotografía (DP) | Responsable de la generación creativa y la vinculación de activos. Es necesario determinar qué modelo de generación (selección de máquina) usar y qué resolución adoptar. Esto incluye seleccionar actores adecuados para el papel y crear imágenes visuales. Es responsable de vincular firmemente las imágenes de referencia específicas (apariencia del actor) y los timbres (voces en off) a las tomas correspondientes para asegurar la continuidad de la escena. |
| <Prompt Writing> | Herramienta de optimización de prompts (Generador de medios) | Diseñador de producción (PD) / Diseñador de sonido (SD) | Domina el lenguaje de las tomas, la iluminación y la textura. Traduce tu estética para que la máquina la entienda. Aquí, programas rígidamente las “reglas visuales”: qué distancia focal usar (50mm/gran angular), qué iluminación aplicar (p. ej., alto contraste claroscuro), qué tono de color establecer y qué efectos especiales de baja calidad excluir (prompts negativos). |
| <Video Editing> | Editor de video | Editor | Responsable de la edición y composición de postproducción. Tras recibir todos los clips, decide cómo unirlos según la línea de tiempo, cómo alinear las bandas sonoras y finalmente exportar la película terminada. |
💡 Lógica central:
La IA no lee todo a la vez y luego actúa al azar. Se carga bajo demanda. Por ejemplo, cuando llega la etapa de diseño del guion gráfico, solo escucha a <storyboard_designer>; cuando llega la etapa de generación de video, solo mira <media_generator> y <write_the_prompt>. Cada uno tiene sus propias responsabilidades y no interfieren entre sí.
📄 Qué es Final_Video_Spec.md y <text_editor>:
El flujo de trabajo oficial incluye la compilación de las “Especificaciones finales del video”, que no se mencionan en la tabla anterior. Esta sección almacena información sobre el título del video, tipo, relación de aspecto, duración, estilo visual, idioma, preferencia de modelo, etc. Es información básica de generación para asegurar que, durante todo el proceso, la generación de los creativos de video sea precisa y sin errores. Por lo tanto, al escribir el flujo de trabajo, esta herramienta debe agregarse antes de la creación del guion gráfico, pero no existe al escribir otras secciones de la skill.
⬇️Estimados directores, si tienen una descripción clara del estilo visual, pueden escribirla aquí~⬇️
⚠️ Ten en cuenta que el formato </> está estandarizado:
Al editar una Skill en formato Markdown (puedes optar por que la IA se encargue de este paso), debes asegurar la precisión del formato; de lo contrario, el contenido de esa sección dejará de ser válido.
- Los títulos de las particiones deben aparecer en la tabla anterior;
- El formato de la partición debe escribirse estrictamente según la plantilla, por ejemplo: comenzando con <planner> y terminando con </planner> respectivamente;
✨ ¿Cuánto tiempo y esfuerzo puede ahorrarte esta skill?
Como creador profesional, tienes tu propio flujo de trabajo exclusivo y tus estándares estéticos. El mayor valor del Sistema de Skills es “transformar tu experiencia profesional en activos”:
- Despídete por completo del sabor a IA de “talla única”: La estética predeterminada de la IA suele ser mediocre e inestable. A través de la Skill, puedes “enseñarle” tu iluminación exclusiva, lenguaje de cámara y preferencias de color, logrando “mil rostros para mil personas”.
- Consolida tu SOP exclusivo (que se puede reutilizar repetidamente): Por ejemplo, los procesos para testimonios, anuncios de autos y videos musicales son completamente diferentes. Una vez que ajustes una “Skill de anuncios de autos”, podrás aplicarla directamente a proyectos similares en el futuro sin tener que empezar de cero cada vez.
- Extremadamente flexible, comienza donde quieras: No tienes que seguir el proceso completo de “escribir un guion -> crear imágenes -> animar”. Si ya tienes imágenes generadas por Midjourney, tu proceso puede comenzar directamente desde “animar”.
- Cubre los puntos ciegos profesionales de la IA: ¿La IA no entiende la jerga de tu empresa o los tabúes de tus clientes? Escríbelos en la Skill y se convertirá en tu empleado dedicado de confianza.
🛠️ ¿Cómo reescribir tu Skill exclusiva?
Si deseas ajustarla tú mismo, aquí tienes sugerencias de escritura para cada partición:
‘Process Planning’: Determina el proceso por el cual el Agente llama a las herramientas (coordina la secuencia de trabajo de varios departamentos)
Muchos creadores sentían que el proceso anterior predeterminado de FlovaAI era demasiado rígido y desperdiciaba mucho tiempo. De hecho, todo depende de lo que decida <Process Planning>.
<Process Planning> debe explicar de forma concisa y clara el propósito de la herramienta, sin entrar en detalles sobre prácticas específicas aquí. Contenido sugerido para incluir:
- Describe claramente el proceso creativo:
- Puedes desarrollar un proceso creativo completo: “Paso 1: Escribir especificaciones de video -> Paso 2: Escribir guiones gráficos -> Paso 3: Generar imágenes -> Paso 4: Generar videos -> Paso 5: Editar y sintetizar”
- También se puede solicitar acceso directo a un solo punto: “Paso 1: Generar video -> Paso 2: Editar y sintetizar”; “Paso 1: Generar música, sin necesidad de pausa ni confirmación”
- Orden y relaciones de dependencia antes y después de la etiqueta:
- Por ejemplo, para la generación de video que requiere controladores de audio (como la sincronización labial en videos musicales), es necesario aclarar que el audio debe estar preparado antes de la generación de video, y que el audio es un creativo necesario para la generación de video y no se puede omitir.
‘Asset Analysis’: Dile al modelo de aprendizaje automático multimodal tus requisitos
Este modelo de análisis de aprendizaje automático multimodal solo se utiliza para procesar los archivos que has subido, que actualmente incluyen: videos, imágenes, audio y documentos. Puedes incluir tu comprensión de los creativos o los criterios para dividirlos.
Por ejemplo:
- Necesito herramientas para analizar mi guion sin alterar su contenido ni su ritmo;
- Necesito herramientas para desglosar el video que subí, pero el ritmo y la duración del desglose del guion gráfico del video deben cumplir con las especificaciones (como se indica a continuación);
‘Storyboard Design’: Deja que la IA filme según tu “visión de director” en lugar de generar al azar
Debes proporcionar requisitos de trabajo por separado a los diseñadores de personajes, planificadores de guiones gráficos, diseñadores de audio y editores, respectivamente:
- ¿Cómo se deben planificar los “elementos clave”?
- Sujeto: Personaje (cómo se ve, si hay diferentes apariencias), Tono de voz del personaje, etc.;
- Escena: Si es necesario explicar la estructura espacial y las posiciones clave;
- Objeto clave
- ......
- ¿Cómo se debe planificar el “guion gráfico del video”? (Videos de diferentes géneros tienen diferentes requisitos)
- Lenguaje de tomas: Toma larga de 15 segundos con múltiples cortes, tomas narrativas planas de 6 a 10 segundos, etc.;
- Descripción de la toma: Debe incluir personajes, escenas, contenido de la historia, cómo interactúan los personajes, etc.;
- ......
- ¿Cómo se debe planificar la “voz”?
- Música de fondo: Una o más piezas, si debe cambiar según el ritmo, etc.;
- Narrador/Voz en off: Si se necesita un narrador, cuáles son las reglas, etc.;
- ......
⚠️ Nota el “rol”: El “planificador de guiones gráficos de video” solo es responsable del guion y la planificación de tomas, y no es necesario escribir los detalles de generación aquí; solo se debe formular el “plan de rodaje”.
‘Media Generation’: Determina el modelo generativo y las especificaciones del contenido de referencia
Diferentes proyectos requieren diferentes capacidades. ¿Quieres coherencia absoluta? ¿O la mayor calidad de imagen en un solo cuadro?
Indica claramente aquí: qué modelo usar para imágenes (p. ej., Gemini) y cuál para videos (p. ej., Seedance 2.0). También puedes imponer la siguiente regla: “ Todas las tomas posteriores deben referirse a la imagen del personaje de la primera toma para asegurar una apariencia consistente. ”
⚠️ Nota: Las limitaciones de las capacidades de referencia y la resolución admitidas por el modelo dependen de los requisitos de la interfaz API oficial del modelo. Consulta la información oficial de la interfaz del modelo. Si decides no especificar información como el modelo y la resolución, Flova te ayudará a asignar la opción predeterminada más adecuada;
Lista de herramientas y modelos de generación visual de Flova AI:
| Nombre oficial de la herramienta | Explicación | Lista de modelos compatibles |
|---|---|---|
TextToImage | Texto a imagen | Seedream 4.5, Nano Banana Pro(Gemini 3 Pro Image). Nano Banana 2(Gemini 3.1 Flash Image). Midjourney V7. GPT Image 1.5. Flux.1 Kontext Pro |
ImageToImage | Imagen a imagen | Seedream 4.5. Nano Banana Pro(Gemini 3 Pro Image), Nano Banana 2(Gemini 3.1 Flash Image), Midjourney V7, GPT Image 1.5, Flux.1 Kontext Pro |
MultiModalToVideo | Referencia omnipotente (Video de aprendizaje automático multimodal) | Seedance 2.0, Seedance 2.0 Fast· |
ImagesToVideo | Video de aprendizaje automático multimodal (Múltiples imágenes a video) | Kling 3.0 Omni, Vidu(Q2) |
FirstFrameToVideo | Video generado a partir del primer cuadro | Google Veo3.1 Fast, Sora-2, Sora-2-Pro, Wan2.6, Vidu(Q3-Pro), Seedance 1.5 Pro Audio, Grok Imagine Video, Kling 3.0 Audio, MiniMax Hailuo 2.3 |
VideoInterp | Generar video a partir de cuadros iniciales y finales | Google Veo3.1 Fast, Seedance 1.5 Pro Audio, Kling 3.0 Audio, Vidu(Q3-Pro), MiniMax Hailuo 2.3 |
TextToVideo | Texto a video | Google Veo3.1 Fast, Sora-2, Wan2.6, Sora-2-Pro, Kling 3.0 Audio, Seedance 1.5 Pro Audio, Seedance 2.0, Seedance 2.0 Fast |
ImageToVideoByAudio | Generación de video impulsada por audio | OmniHuman1.5 |
lyrics_to_song | Generación de música | Suno 5, Mureka 8 |
text to narrtion | Generación de narrador | ElevenLabs v3, Doubao |
‘Prompt Writing’: Inyección de estética personalizada
Aquí es donde se determina la textura de la imagen. No te limites a escribir “imágenes bonitas”, ingresa tus efectos de imagen, lenguaje de tomas, y especialmente tu conocimiento profesional como la experiencia con diferentes modelos, etc.:
- Especifica por separado el método de escritura del prompt para la generación de imágenes y la generación de video
- Estructura de escritura de prompts: p. ej., Estilo (término técnico) + Contenido (lenguaje natural) + Lenguaje de tomas (término técnico) + Palabra emocional;
- Lenguaje de tomas: Especifica el uso de
Over-the-shoulder shot(toma sobre el hombro),Dutch angle(ángulo holandés/composición inclinada); - Luz y color: Escribe
deep teal-cyan shadows dominating 90%, zero warm fill(sombras de color verde azulado profundo dominando el 90%, cero luz de relleno cálida); - etc. ......
- Establece palabras de prompt negativo: Escribe claramente “sin subtítulos” y “sin música” para facilitar la edición de postproducción.
- Algunos modelos requieren formatos específicos. Puedes consultar al asistente oficial o referirte a la documentación de la interfaz API oficial del modelo para asegurar una generación estable. Por ejemplo: Al hacer referencia a una imagen en el modelo Kling 3.0 Omni, el prompt debe usar el formato <<<image 1>>>; de lo contrario, la referencia fallará.
‘Video Editing’: ¿Qué se debe tener en cuenta en la edición de video?
Capacidades básicas de edición admitidas por Flova AI: ajuste de volumen, silenciamiento de pistas, cambio de velocidad de audio y video, etc. Puedes resumir los problemas encontrados durante el proceso creativo en especificaciones y escribirlos aquí para evitar que la IA cometa los mismos errores la próxima vez.
Por ejemplo:
- Al usar un humano digital para sincronización labial, no se puede cambiar la velocidad del video de sincronización labial;
- Al crear contenido de videos musicales, el editor debe silenciar todas las pistas de video y mantener solo el audio de la música de fondo (BGM) para evitar pistas de audio duplicadas.
- ......
🔥 Preguntas frecuentes (FAQ) —— Tu guía para evitar errores
P1: ¡¿Por qué el rendimiento del modelo ha empeorado de repente, siendo completamente diferente al de hace dos días?!
🧠 Revelando la lógica subyacente:
Muchos creadores no saben que la generación de modelos grandes presenta el problema del “Desplazamiento del dominio de datos” (Data Domain Shift), y diferentes modelos tienen sus propias fortalezas en estilo y efectos. Los efectos de los prompts para estilos realistas y temas de ciencia ficción varían significativamente entre diferentes modelos.
✅ Cómo mejorar:
Puedes “refinar” el conocimiento profesional de la descripción de la imagen para el modelo.
Entra en la sección <Prompt Writing> de la Skill, describe tus preferencias visuales usando términos profesionales (como fotografía de película, colores pastel, detalles ricos, transiciones de luz y sombra, alto contraste, capas ricas, estética brumosa, estética de luz, efecto lomo, etc.). O en <Media Generation>, impón que cada generación de toma incluya una imagen de referencia (imagen de composición) con la que estés satisfecho para anclar el estilo.
P2: Tengo un conjunto de flujos de trabajo profesionales para mi propia empresa, que son diferentes a los predeterminados de Flova. ¿Cómo puedo modificarlos?
✅ Cómo modificar:
Modifica la partición <Process Planning>. Puedes reescribir completamente la secuencia de las etapas. Por ejemplo, si tu regla es “la voz en off de la narración debe producirse primero, y luego el video se genera en función del tiempo de la narración”, puedes especificar en el Planner: 1. Generar audio -> 2. Analizar longitud de audio -> 3. Generar video de la longitud correspondiente.
P3: Si un creativo (imagen o video) generado por IA no es visualmente atractivo, ¿cómo se puede remediar?
✅ Cómo modificar:
Cuando encuentres creativos de baja calidad, simplemente pide que los vuelva a generar directamente en el cuadro de diálogo (“La iluminación en la toma 3 es demasiado tenue, repite esta toma”). También puedes agregar temporalmente un requisito específico en el archivo Final_Video_Spec.md del proyecto (Hoja de especificaciones finales), que anulará la configuración predeterminada de la Skill.
P4: ¡El proceso es demasiado pesado! ¡Solo quiero hacer que una imagen se mueva, no pasar por todas estas tonterías como escribir un guion y un guion gráfico!
✅ Cómo modificar:
- La nueva versión de Flova puede admitir la generación directa de creativos individuales o la optimización individual de prompts sin cargar ninguna Skill;
- Cuando tengas más de una llamada a herramientas o ya tengas experiencia escribiendo prompts, ¡puedes simplificar el
<planner>! Crea una nueva Skill ligera y elimina directamente las secciones no utilizadas, como<Storyboard Design>.
P5: ¿Qué debo hacer si la IA siempre malinterpreta mi conocimiento en un campo profesional específico (como un dispositivo médico específico o un término de posición de cámara especial)?
✅ Cómo modificarlo:
Crea un “Glosario de terminología” en <Storyboard Design> o <Prompt Writing>. Por ejemplo, escribe: “Nota: Cuando mencione 『push shot』, tradúcelo como 『Slow dolly shot in』 en el prompt, y el uso del zoom está estrictamente prohibido”. Aliméntala con conocimiento profesional y dejará de ser una aficionada.
P6: ¿Qué debo hacer si el modelo que quiero usar (como un modelo de anime específico) no está incluido en las recomendaciones oficiales de Skills?
✅ Cómo cambiar:
Simplemente especifica el nombre y la resolución del modelo al que quieres llamar en la partición <media_generator> (consulta la lista anterior). Siempre que sea un grupo de modelos compatible con la plataforma, puedes cambiar libremente. ¿El modelo que quiero usar no está disponible en Flova? ¡Te invitamos a enviar tus modelos favoritos al servicio de atención al cliente oficial!
P7: La Skill oficial predeterminada tiene demasiadas palabras. No las entiendo y no quiero leerlas. ¿Qué debo hacer?
✅ Cómo modificar:
Te recomendamos elegir la Skill que más se acerque a tu flujo de trabajo y realizar modificaciones locales basadas en la Skill oficial. Si tienes alguna pregunta o encuentras problemas donde la Skill no funciona, no dudes en compartirlos en el grupo oficial de usuarios; nuestro equipo profesional responderá tus dudas.
En el futuro, Flova planea lanzar una herramienta de IA diseñada específicamente para asistir en la escritura de Skills. Simplemente sube tu experiencia previa en flujos de trabajo y Flova te ayudará a convertirla en un documento de Skill. Durante la fase de prueba interna, ¡también puedes compartir con nosotros tu experiencia convirtiendo flujos de trabajo en Skills para ayudarnos a lanzar un Agente de herramientas de Skills más profesional!
💬 ¿Aún no hemos respondido tus preguntas?
No dudes en contactar al equipo de operaciones oficial para unirte al grupo, trae el enlace de tu trabajo y tus preguntas, ¡y comunícate con más creadores de primera línea sobre tus propias visiones de director en la era de la IA!
Lo anterior es solo la escritura básica del flujo de trabajo oficial predeterminado de Flova AI, con la intención de servir como punto de partida. ¡Esperamos que todos los creadores incorporen su estética y conocimiento profesional en las Skills para crear y desbloquear experiencias exclusivas aún más increíbles!
Última actualización el