การทำงานของ Flova
Flova ไม่ได้เป็นเพียงโมเดลเดียว แต่มันคือระบบการทำงานร่วมกันที่ประกอบด้วยเอเจนต์เฉพาะทางหลายตัว การทำความเข้าใจระบบนี้จะช่วยให้คุณคาดการณ์พฤติกรรมของ Flova และทำงานร่วมกับมันได้อย่างมีประสิทธิภาพมากขึ้น
Planner: สมองของระบบ
Planner คือผู้ประสานงานหลักของระบบเอเจนต์ใน Flova โดยทำหน้าที่สองอย่างคือ:
-
ทำความเข้าใจเจตนาของคุณ: อ่านข้อความของคุณ สถานะสตอรี่บอร์ดปัจจุบัน เอกสารโปรเจกต์ และ Skill ที่ใช้งานอยู่ เพื่อตัดสินใจว่าคุณต้องการอะไรกันแน่
-
ย่อยงานและมอบหมาย: เปลี่ยนเป้าหมายของคุณให้เป็นงานย่อยที่สามารถดำเนินการได้ และส่งต่อไปยังเอเจนต์ย่อยที่เหมาะสม
Planner ไม่ได้ทำงานสร้างสรรค์โดยตรง ไม่ได้สร้างรูปภาพหรือแก้ไขสตอรี่บอร์ดเอง หน้าที่ของมันคือการคิดและประสานงาน
ตรรกะการตัดสินใจของ Planner
ทุกครั้งที่ได้รับข้อความจากคุณ Planner จะเข้าสู่ลูปการคิดและลงมือทำ (think-act loop) ขั้นแรกจะประเมินว่าต้องการคำชี้แจงหรือการยืนยันจากคุณหรือไม่ หากไม่ต้องการ จะเลือกเอเจนต์ย่อยที่ควรทำงานเป็นลำดับถัดไป เมื่อได้รับผลลัพธ์แล้ว จะประเมินขั้นตอนต่อไปว่า: มอบหมายงานอื่นต่อ หรือรายงานการทำงานเสร็จสิ้นให้คุณทราบ
ลูปนี้ช่วยให้ Planner จัดการเวิร์กโฟลว์ที่ซับซ้อนหลายขั้นตอนได้ คำขออย่างเช่น "สร้างวิดีโอสั้นฉบับสมบูรณ์ตั้งแต่ต้น" อาจต้องมีการเรียกใช้งานผู้ออกแบบสตอรี่บอร์ด ตัวสร้างสื่อ และตัวประกอบวิดีโออย่างต่อเนื่อง โดยมี Planner เป็นผู้ประสานงานทั้งหมด
เงื่อนไขการหยุดทำงาน
Planner จะหยุดทำงานและส่งคืนการควบคุมให้คุณภายใต้เงื่อนไขต่อไปนี้:
-
งานเสร็จสมบูรณ์
-
ต้องการข้อมูลเพิ่มเติม
-
จำเป็นต้องมีการตัดสินใจที่สำคัญจากคุณ
-
ระบบติดข้อจำกัด เช่น โควตาหรือข้อจำกัดของแพลตฟอร์ม
ระบบเอเจนต์ย่อย
ปัจจุบัน Flova ประกอบด้วยเอเจนต์ย่อยเฉพาะทางดังต่อไปนี้:
ผู้ออกแบบสตอรี่บอร์ด (Storyboard Designer)
เอเจนต์นี้เน้นที่การสร้างและดูแลโครงสร้างสตอรี่บอร์ด หากคุณพูดว่า "ช่วยวางแผนหนังสั้นความยาวสามนาทีเกี่ยวกับการวิ่งในเมืองตอนกลางคืนหน่อย" Planner จะส่งคำขอนั้นไปยังผู้ออกแบบสตอรี่บอร์ด
หลักการพื้นฐานคือ "โครงสร้างต้องมาก่อน" โดยจะจัดการตรรกะการเล่าเรื่องและการลำดับภาพก่อนจะลงรายละเอียดในแต่ละช็อต โดยจะส่งผลลัพธ์เป็นการแก้ไขเชิงโครงสร้าง เช่น การเพิ่ม อัปเดต ลบ และจัดลำดับใหม่ แทนที่จะเขียนสตอรี่บอร์ดใหม่ทั้งหมดโดยตรง ซึ่งช่วยให้ทุกการเปลี่ยนแปลงสามารถติดตามและย้อนกลับได้
ตัวสร้างสื่อ (Media Generator)
เอเจนต์นี้รับผิดชอบในการสร้างและจัดการกลุ่มสินทรัพย์สื่อทั้งหมด: การสร้างภาพ การสร้างวิดีโอ การสังเคราะห์เสียงบรรยาย และการสร้างดนตรีประกอบ
โดยจะจัดการสถานการณ์หลักสามอย่าง:
-
การสร้างเริ่มต้น: สร้างกลุ่มสินทรัพย์ภาพหรือเสียงใหม่จากคำอธิบายช็อต
-
การแก้ไขและการสร้างใหม่: สร้างเวอร์ชันใหม่ตามคำแนะนำของผู้ใช้และสื่ออ้างอิง โดยยังคงเก็บเวอร์ชันเก่าไว้
-
การจัดการโครงสร้าง: ลงทะเบียนกลุ่มสินทรัพย์ รักษาการเชื่อมโยง และติดตามทรัพยากรโดยไม่ต้องสร้างเนื้อหาใหม่
ตัวสร้างสื่อใช้หลักการสำคัญคือ การอัปเดตแบบ Lazy: โดยจะสร้างใหม่เฉพาะกลุ่มสินทรัพย์ต้นทางที่คุณระบุไว้ชัดเจนเท่านั้น สำหรับทรัพยากรปลายทางที่ขึ้นอยู่กับสินทรัพย์นั้น มันจะสร้างรายการผลกระทบส่งให้ Planner แทนที่จะสร้างทุกอย่างใหม่โดยอัตโนมัติ
วิเคราะห์และจัดเตรียม (Analyze & Prepare)
เมื่อคุณอัปโหลดรูปภาพ วิดีโอ หรือเอกสาร เอเจนต์นี้จะวิเคราะห์เนื้อหาและสกัดข้อมูลเชิงโครงสร้าง เช่น คำอธิบายฉาก ลักษณะตัวละคร และแท็กสไตล์ เพื่อสนับสนุนการทำงานสร้างสรรค์ในภายหลัง
ตัวประกอบวิดีโอ (Video Assembler)
เอเจนต์นี้จะนำพิมพ์เขียวสตอรี่บอร์ดและสื่อในแต่ละช็อตมาประกอบกันเป็นไทม์ไลน์ที่สามารถดูตัวอย่างได้ โดยจัดการสามแทร็ก: วิดีโอหลัก เสียงบรรยาย และดนตรีประกอบ ทุกการดำเนินการจะเปลี่ยนแปลงเฉพาะสิ่งที่จำเป็น แทนที่จะสร้างไทม์ไลน์ใหม่ทั้งหมดทุกครั้ง
ตัวแก้ไขข้อความ (Text Editor)
เอเจนต์นี้ดูแลเอกสารหน่วยความจำของโปรเจกต์ เช่น Final Video Spec และไฟล์ Skill โดยแก้ไขผ่านการดำเนินการกับข้อความที่ควบคุมได้ เพื่อให้ประวัติการแก้ไขยังคงตรวจสอบได้
ตัวโหลด Skill (Skill Loader)
เอเจนต์นี้จะใส่เนื้อหา Skill เข้าไปในบริบทการทำงานของเอเจนต์ย่อยในจังหวะที่เหมาะสม เฉพาะส่วนของ Skill ที่เกี่ยวข้องเท่านั้นที่จะถูกส่งไปยังแต่ละเอเจนต์ย่อย แทนที่จะส่งเอกสาร Skill ทั้งหมดเข้าไปในหน้าต่างบริบททุกครั้ง
ลูป ReAct: การคิดและลงมือทำ
โหมดการทำงานของ Flova เป็นไปตามรูปแบบ ReAct จากแวดวง AI นั่นคือ: ให้เหตุผลก่อน ลงมือทำทีหลัง จากนั้นใช้ผลลัพธ์จากการกระทำเพื่อขับเคลื่อนการให้เหตุผลในรอบถัดไป
สำหรับผู้ใช้งาน สิ่งนี้หมายถึง:
ทุกการตัดสินใจของ Flova มีเหตุผลเสมอ: Planner ไม่ได้เรียกใช้เอเจนต์ย่อยแบบสุ่ม แต่มันใช้เหตุผลจากสถานะปัจจุบันก่อนตัดสินใจ
งานที่ซับซ้อนจะถูกย่อยสลายอย่างเป็นธรรมชาติ: หากคุณขอให้ Flova ทำทั้งโปรเจกต์ตั้งแต่ต้นจนจบ มันจะไม่พยายามทำทุกอย่างในขั้นตอนเดียวที่คลุมเครือ แต่มันจะเคลื่อนไปตามระยะ รายงานความคืบหน้า และหยุดชั่วคราวเมื่อต้องการการตัดสินใจของคุณ
มองเห็นสถานะระหว่างทางได้: คุณไม่จำเป็นต้องรอจนกว่าทุกอย่างจะเสร็จสิ้นเพื่อดูความคืบหน้า สตอรี่บอร์ดและคลังสื่อจะอัปเดตทันทีที่เอเจนต์ย่อยแต่ละตัวทำงานเสร็จ
การใส่บริบท: หน่วยความจำในการทำงานของ Flova
เมื่อเอเจนต์ย่อยทำงาน Flova จะใส่บริบทที่เกี่ยวข้องกับความรับผิดชอบของเอเจนต์นั้นโดยอัตโนมัติ ตรรกะการควบคุมนั้นเรียบง่าย: ให้เอเจนต์แต่ละตัวจดจ่ออยู่กับข้อมูลที่จำเป็นต้องใช้จริงๆ และซ่อนสิ่งที่อาจทำให้ไขว้เขว
ผู้ออกแบบสตอรี่บอร์ดต้องการโครงสร้างการเล่าเรื่อง ไม่ใช่รายละเอียดการตั้งค่าการสร้าง ตัวสร้างสื่อต้องการคำอธิบายช็อตและข้อมูลอ้างอิง ไม่ใช่ตรรกะการตัดต่อทั้งหมดของไทม์ไลน์ การจำกัดขอบเขตสิ่งที่เอเจนต์แต่ละตัวมองเห็นอย่างระมัดระวังช่วยให้เอเจนต์เฉพาะทางตัดสินใจได้ดีขึ้นในโดเมนของตนเอง แทนที่จะจมไปกับปริมาณข้อมูลทั้งหมดของโปรเจกต์
อัปเดตล่าสุดเมื่อ