Inicia tu primer proyecto
La forma más sencilla de conectar los conceptos anteriores es mediante un ejemplo concreto. Esta guía te lleva desde la apertura de un proyecto hasta la exportación del video final.
> Escenario: tienes una imagen en mente. En una azotea a mitad de la noche, un robot solitario riega una planta moribunda en una maceta. Quieres convertir eso en una pieza de ambiente de 45 segundos sin diálogos, solo con imágenes y música. Ya tienes una imagen conceptual del robot generada por IA que te gusta y quieres continuar a partir de ella.
Paso 1: Crea la historia a través del chat
En el panel de chat, dices:
> "Ayúdame a hacer un corto emotivo de 45 segundos. La historia es simple: una azotea por la noche, un viejo robot cuidando silenciosamente una planta moribunda en una maceta. Sin diálogos, solo imágenes y música. La imagen que subí debe usarse como referencia visual para el robot. Usa ese estilo. Vertical, 9:16".
El Planner comienza a trabajar:
-
Aceptar entrada multimodal: la imagen y el texto entran al Planner juntos en un solo turno. El agente de análisis extrae automáticamente las características visuales de la imagen de referencia subida, como la carcasa de metal desgastada, el tenue resplandor cálido de los ojos y la postura ligeramente encorvada, y también etiqueta el estilo visual general. La imagen aparece simultáneamente en el panel de Archivos para su posterior vinculación y reutilización.
-
Coincidir con una Skill: según la solicitud, el Planner selecciona automáticamente la Skill de Video corto basado en la historia. Esa Skill le indica a Flova que organice la narrativa como un arco emocional de tres actos en lugar de una secuencia densa de información.
-
Actualizar documentos: el agente de mantenimiento de documentos escribe la duración, la relación de aspecto, "sin diálogos, narración solo visual" y palabras clave de estilo visual en la Especificación del video final.
-
Diseñar el guion gráfico: guiado por las reglas narrativas de la Skill, el diseñador del guion gráfico genera una estructura:
-
Elementos clave: se crean tres elementos clave.
Element_Chibi_Robotdescribe al viejo robot de estilo chibi, basado visualmente en la imagen subida.Element_Rooftop_Nightdescribe la azotea nocturna con luces de la ciudad borrosas y un cielo profundo.Element_Dying_Plantdefine la planta casi muerta en una vieja maceta de barro agrietada. -
Tomas: tres tomas largas de aproximadamente 15 segundos cada una.
Shot_Rooftop_Introestablece la azotea y se acerca lentamente hacia el robot y la planta.Shot_Caring_Plantse enfoca en la planta, luego en el robot regándola y, finalmente, un primer plano extremo del agua cayendo sobre las hojas secas.Shot_Companion_Nightmuestra al robot sentado junto a la planta, luego se aleja para que ambos miren juntos el tranquilo horizonte de la ciudad antes de desvanecerse a negro. -
Capa de audio: una única pista de música de fondo
Audio_Melancholy_Piano, que comienza con un piano minimalista, al que luego se unen cuerdas tenues y una textura ligeramente mecánica, pasando de la soledad a un cuidado cálido y silencioso.
Paso 2: Ajusta el guion gráfico
Después de revisar el resultado, decides que la tercera toma debe describir al robot sentándose con más detalle. Haces doble clic en la descripción de la toma y la revisas para incluir un suave crujido mecánico en las articulaciones y una postura ligeramente inclinada hacia adelante, lo que añade tensión emocional.
No necesitas explicar estos cambios manuales a Flova. Los recibirá automáticamente en el siguiente turno.
Paso 3: Genera imágenes clave
Dices:
> "Genera primero todas las imágenes de los elementos clave. Quiero definir el personaje y la escena principales antes de continuar".
El generador de medios comienza trabajando en los elementos clave en lugar de los fotogramas clave de las tomas. Utiliza la imagen de referencia subida como un ancla estricta y se expande en torno al mismo concepto de personaje, manteniendo la forma chibi, la carcasa oxidada, los ojos cálidos resplandecientes y la sensación de dibujo a mano de manera constante.
Después de unos minutos, aparecen varias imágenes candidatas bajo los elementos clave. Algunas enfatizan más las luces de la ciudad. Otras resaltan el cielo estrellado. Algunas son más cálidas en general.
Las exploras en el panel de vista previa:
-
una imagen de la escena se siente cercana, pero no lo suficiente como para transmitir profundidad y soledad
-
escribes tus comentarios directamente en el panel de vista previa: "Esto todavía no se siente lo suficientemente profundo y solitario. Genera algunas versiones más para que pueda comparar".
-
el generador de medios añade más versiones bajo el mismo grupo de recursos
-
entre las nuevas versiones, algunas son más oscuras, otras reducen el resplandor de neón y otras debilitan la cálida luz de la pared para aumentar la sensación de soledad
-
las comparas lado a lado y eliges la que mejor coincide con el sentimiento que buscas
El punto importante aquí no es una generación perfecta. Es definir el personaje y la atmósfera de un solo recurso a través de una iteración enfocada y luego seleccionar la mejor versión de un conjunto significativo de opciones.
Paso 4: Genera el video
Dices:
> "Ahora genera el video para cada toma basándote en los elementos clave que hemos definido".
El generador de medios trabaja en el guion gráfico toma por toma. Cada toma hace referencia automáticamente a las versiones actuales de Element_Chibi_Robot y Element_Rooftop_Night, por lo que la apariencia del robot, el ambiente del entorno y la paleta de colores global se mantienen consistentes en toda la pieza.
Después de unas rondas, cada toma tiene múltiples versiones de video candidatas. Las revisas una por una. Una versión de Shot_Companion_Night tiene el ritmo y el peso emocional más fuertes, así que la marcas como favorita. En otra toma, el movimiento del robot se siente un poco demasiado rígido, por lo que solicitas dos revisiones más basadas en comentarios y luego eliges la mejor.
Paso 5: Genera la música
Dices:
> "Genera la música de fondo".
El generador de medios crea dos versiones de música bajo el mismo grupo de recursos de acuerdo con la definición de la capa de audio. Después de escucharlas, decides que la primera versión está demasiado cargada, mientras que la segunda tiene más espacio y respira mejor con las imágenes, por lo que eliges la segunda.
Paso 6: Ensambla la línea de tiempo
Dices:
> "Ensambla la línea de tiempo".
El ensamblador de video combina el guion gráfico, las versiones de los elementos clave seleccionadas, los medios de las tomas generadas y la música en la línea de tiempo. Cambias al panel de la línea de tiempo, lo previsualizas y sientes que la espera final en la tercera toma debería durar un segundo más para que el robot y la planta puedan estar con la ciudad un poco más de tiempo. Arrastras el tiempo manualmente para ajustarlo.
Mientras estás en el modo de línea de tiempo, también puedes abrir el panel de Archivos y arrastrar medios alternativos directamente a las pistas de la línea de tiempo.
Paso 7: Explora una rama
Después de previsualizar el resultado, te preguntas si el final se sentiría más resonante si la hoja de la planta se moviera muy ligeramente antes del desvanecimiento en lugar de desvanecerse de inmediato.
Vuelves al historial de chat, buscas el punto antes de que comenzara la generación de la imagen del robot y haces clic en Branch from here. En la nueva rama, editas la descripción de Shot_Companion_Night y le pides a Flova que la regenere. Ahora los dos finales coexisten y se pueden comparar, seleccionar o desarrollar de forma independiente.
Paso 8: Exportar
Al final, eliges la versión más sobria. No hay un "renacimiento" explícito, solo el robot acompañando silenciosamente a la planta hasta que termina la noche. Una vez confirmada la línea de tiempo, haces clic en exportar y el corto emotivo vertical de 45 segundos está terminado.
Última actualización el