Pipeline multimodal unificado
Las entradas de texto, imagen y video de referencia pasan por un único orquestador del lado del servidor que selecciona el modelo base adecuado para cada escena, normaliza los parámetros entre proveedores y devuelve un único formato de salida consistente. Tú escribes un prompt; nosotros nos encargamos de la selección del modelo, la adaptación de proporciones y la sincronización de audio.