Pipeline multimodale unificata
Gli input testuali, visivi e video di riferimento scorrono attraverso un unico orchestratore lato server che sceglie il modello di fondazione giusto per ogni scena, normalizza i parametri tra i provider e restituisce un unico formato di output coerente. Scrivi un prompt; pensiamo noi alla selezione del modello, all'adattamento del formato e alla sincronizzazione audio.