Generador de video IA Wan 2.7

Wan 2.7

Generador de vídeo AI Wan 2.7

Wan 2.7 es el modelo de vídeo Tongyi Wanxiang de Alibaba que presenta el modo de pensamiento, una capa de razonamiento de cadena de pensamiento incorporada que planifica la composición, la ubicación del sujeto y la lógica de movimiento antes de generar un solo píxel. Admite cuatro modos de generación: texto a video, imagen a video con control del primer y último fotograma clave, referencia a video para coherencia del tema y edición de video basada en instrucciones, todo hasta 1080p con audio nativo.

Modo de pensamiento: composición de planes de razonamiento en cadena de pensamiento, ubicación del sujeto y lógica de movimiento antes de que comience la generaciónCuatro modos de generación en un modelo: T2V, I2V con control de fotogramas clave, R2V para coherencia de sujetos y edición de vídeo.Control de fotograma clave del primer y último fotograma: define el inicio y el final visual exacto de cada transición.Compatibilidad con múltiples referencias: hasta 9 imágenes de referencia y referencias en video para una identidad consistente de personajes y objetos

Wan 2.7

Publicado en abril de 2026 por Tongyi Lab de Alibaba. El modo de pensamiento procesa previamente su mensaje a través de un razonamiento en cadena de pensamiento para lograr composiciones más coherentes. Utilice T2V para indicaciones, I2V para control de fotogramas clave, R2V para coherencia de temas y Video Edit para modificaciones basadas en instrucciones.

Vista previa del modo de pensamiento Wan 2.7

Wan 2.7 razona a través de su mensaje antes de generar, produciendo composiciones más precisas con escenas complejas de múltiples elementos.

Wan 2.7

Vista previa del modo de pensamiento Wan 2.7

Wan 2.7 razona a través de su mensaje antes de generar, produciendo composiciones más precisas con escenas complejas de múltiples elementos.

Vista previa del modo de pensamiento Wan 2.7 2

Funciones del generador de vídeo AI Wan 2.7

Razonamiento del modo de pensamiento

El modo de pensamiento de Wan 2.7 ejecuta una capa de razonamiento en cadena de pensamiento antes de que comience la generación. El modelo analiza sus indicaciones, planifica la ubicación del sujeto, la dirección del movimiento, la composición de la cámara y las señales de audio, luego verifica que el plan sea coherente antes de generar fotogramas de video. Esto produce composiciones significativamente más precisas, menos artefactos espaciales y una mayor adherencia a indicaciones complejas de múltiples sujetos que los modelos más simples distorsionan.

Cuatro modos de generación unificados

Wan 2.7 cubre la conversión de texto a video para una generación puramente basada en indicaciones con Thinking Mode, la conversión de imagen a video con control del primer y último fotograma clave para transiciones de escena precisas, la referencia a video (R2V) para la coherencia de sujetos y objetos con múltiples referencias, y la edición de video para la modificación basada en instrucciones de clips existentes. Los cuatro modos comparten la misma infraestructura Wan 2.7 API y el mismo sistema de crédito unificado.

Control del primer y último fotograma clave

Cargue una imagen del fotograma inicial, una imagen del fotograma final o ambas para definir con precisión los límites visuales de un clip generado. Wan 2.7 interpola un movimiento coherente entre los fotogramas especificados, produciendo una transición controlada que respeta la composición, el color y las posiciones de los sujetos en ambas imágenes. Esto lo hace ideal para revelaciones de productos, transformaciones de entornos y cortes de escena a escena.

Coherencia entre el tema de la referencia y el vídeo

Cargue referencias de imágenes o videos como entradas al modo R2V. Wan 2.7 extrae la apariencia del personaje, el color de la ropa, la textura del material y la identidad del objeto de las referencias y las aplica consistentemente a lo largo del video generado. Se admiten referencias de imágenes y de vídeo, lo que permite la coherencia de personajes y productos en diferentes escenas y ángulos de cámara.

Edición de vídeo basada en instrucciones

El modo de edición de video acepta un video fuente existente y una instrucción en lenguaje natural que describe el cambio de destino. Wan 2.7 aplica ediciones locales (transferencia de estilo, cambios de color, reemplazo de objetos, modificación de fondo) al tiempo que conserva la estructura de movimiento original y la coherencia temporal. Agregue hasta 5 imágenes de referencia para especificar la apariencia visual de destino para la salida editada.

Cómo utilizar Wan 2.7

Seleccione el modo de generación: T2V para indicaciones, I2V para control de fotogramas clave, R2V para coherencia de referencia o Edición de vídeo para modificación.

Escriba una indicación detallada: el modo de pensamiento la razonará antes de la generación, por lo que las indicaciones complejas de múltiples elementos funcionan particularmente bien.

Para I2V, cargue una imagen del primer fotograma, una imagen del último fotograma o ambas para establecer los puntos visuales exactos de inicio y fin del clip.

Para R2V, cargue imágenes y videos de referencia para establecer una apariencia consistente del sujeto y el objeto en todo el video generado.

Establezca la resolución (720p o 1080p), la relación de aspecto (16:9, 9:16 o 1:1), la duración y la velocidad de cuadros antes de enviar

Seleccione el modo de generación: T2V para indicaciones, I2V para control de fotogramas clave, R2V para coherencia de referencia o Edición de vídeo para modificación.

Escriba una indicación detallada: el modo de pensamiento la razonará antes de la generación, por lo que las indicaciones complejas de múltiples elementos funcionan particularmente bien.

Para I2V, cargue una imagen del primer fotograma, una imagen del último fotograma o ambas para establecer los puntos visuales exactos de inicio y fin del clip.

Para R2V, cargue imágenes y videos de referencia para establecer una apariencia consistente del sujeto y el objeto en todo el video generado.

Establezca la resolución (720p o 1080p), la relación de aspecto (16:9, 9:16 o 1:1), la duración y la velocidad de cuadros antes de enviar

Los mejores casos de uso de Wan 2.7

Transiciones y revelaciones de escenas: use I2V del primer y último fotograma para producir revelaciones precisas del producto o secuencias de transformación del entorno.

Serie de contenido coherente con los personajes: use R2V con imágenes de referencia para generar múltiples clips con la misma persona, avatar o producto.

Localización de video y cambio de apariencia: use Video Edit para aplicar ropa, fondos o paletas de colores nuevos al material de la campaña existente.

Escenas narrativas complejas: use el modo de pensamiento para manejar indicaciones de múltiples sujetos y múltiples cámaras que requieren una fuerte coherencia espacial.

Clips audiovisuales cortos: proporcione un archivo de audio para generar movimiento con ritmo o sincronización de labios para videos musicales o contenido de oradores.

Vídeos del catálogo de productos: utilice el control de fotogramas clave para producir secuencias consistentes de inicio y revelación para cada producto de un catálogo.

Consejos para solicitar Wan 2.7

Escriba indicaciones detalladas de múltiples elementos: el modo de pensamiento está optimizado para instrucciones complejas que confundirían modelos más simples de generación directa.

Utilice el control del primer y último fotograma para definir transiciones de escenas con precisión, especialmente para revelaciones de productos o transformaciones ambientales.

Proporcione imágenes de referencia en el modo R2V para cada sujeto distinto: más ángulos de referencia le dan al modelo un mejor material para mantener la coherencia.

Para el modo de edición de video, describa el estado final deseado del video en lugar de la operación de cambio; las descripciones positivas producen resultados más limpios.

Especifique los detalles del entorno de audio en las indicaciones T2V cuando la generación de audio esté habilitada: el sonido ambiental, las señales de diálogo y el tipo de música influyen en la salida.

Cómo utilizar Wan 2.7

Utilice el modo T2V con un mensaje detallado y deje que Thinking Mode se encargue de la planificación de la composición para escenas complejas de múltiples sujetos o múltiples acciones.

Establezca el primer y último fotograma clave en modo I2V para generar una transición visual precisa entre dos estados definidos: producto antes y después, cambio de entorno.

Cargue imágenes de referencia de personajes o productos en el modo R2V para mantener una apariencia consistente en todos los segmentos de video generados y ángulos de cámara.

Utilice el modo de edición de vídeo para cargar un clip existente y modificar la ropa, el fondo, el grado de color o el estilo con instrucciones de texto e imágenes de referencia opcionales.

Proporcione archivos de entrada de audio en formato WAV o MP3 para impulsar la sincronización de labios o el movimiento con ritmo en modos T2V e I2V.

Preguntas frecuentes sobre Wan 2.7

¿Qué es el modo de pensamiento en Wan 2.7?

El modo de pensamiento es una capa de razonamiento en cadena de pensamiento integrada en Wan 2.7. Antes de generar fotogramas, el modelo analiza su mensaje, planifica la composición, determina la ubicación del sujeto y la dirección del movimiento, verifica la coherencia espacial y luego comienza la generación. Esto produce resultados significativamente mejores en indicaciones complejas con múltiples sujetos, diseños de escena complejos o instrucciones detalladas de la cámara en comparación con los modelos que se generan directamente a partir de texto sin una etapa de planificación.

¿Cuál es la diferencia entre los modos I2V y R2V en Wan 2.7?

Imagen a vídeo (I2V) utiliza imágenes de fotogramas clave (específicamente el primer fotograma, el último fotograma o ambos) para definir los estados visuales de inicio y fin del clip. La referencia a video (R2V) utiliza imágenes y videos de referencia para establecer una apariencia consistente del sujeto, la ropa y la identidad del objeto a lo largo del clip, independientemente del ángulo de la cámara o los cambios de escena. I2V controla los límites de la escena; R2V controla la coherencia del tema.

¿Cómo funciona la edición de video en Wan 2.7?

El modo de edición de vídeo acepta un clip de vídeo existente y una instrucción en lenguaje natural. Wan 2.7 aplica la edición preservando la estructura del movimiento y la coherencia temporal. Las ediciones pueden ser locales (cambiar un atributo específico como el color de la ropa o un detalle del producto) o globales (cambiar la iluminación general de la escena o el estilo visual). Se pueden proporcionar hasta 5 imágenes de referencia para especificar la apariencia visual de destino para la salida editada.

¿Wan 2.7 admite la generación de audio?

Sí. Wan 2.7 admite la generación de audio nativo, incluida la sincronización de labios para contenido hablado y paisajes sonoros ambientales. También puede proporcionar archivos de entrada de audio en formato WAV o MP3 (de 3 a 30 segundos, hasta 15 MB) para generar movimiento con ritmo coincidente o generación directa de sincronización de labios. Las entradas de audio son compatibles en los modos T2V e I2V.

¿Qué resolución y duración admite Wan 2.7?

Wan 2.7 genera video de 720p o 1080p a 16 fps o 24 fps. Los modos T2V e I2V admiten clips de hasta 15 segundos; Los modos R2V y Edición de vídeo admiten clips de hasta 10 segundos. Las relaciones de aspecto incluyen 16:9, 9:16 y 1:1. La variante T2V-14B ofrece la máxima calidad; T2V-1.3B Turbo ofrece una generación más rápida a un menor costo de crédito.

¿Cómo se compara Wan 2.7 con HappyHorse 1.0?

Wan 2.7 ofrece razonamiento en modo Thinking para indicaciones de composición complejas, control de fotogramas clave para transiciones de escenas precisas y cuatro modos de generación a partir de un modelo. HappyHorse 1.0 se centra en la generación conjunta de audio y vídeo en una sola pasada con sincronización labial nativa en 7 idiomas y un modo de edición de vídeo compatible con hasta 5 imágenes de referencia. Ambos modelos están disponibles en Lovimg y sirven para diferentes flujos de trabajo de producción.