Veo 3.1 Pro

Veo 3.1 AI-Videogenerator

Veo 3.1 ist das Flaggschiff-KI-Videomodell von Google DeepMind und generiert 8-sekündige 4K-Clips mit nativ synchronisiertem 48-kHz-Audio – Dialoge, Soundeffekte und Umgebungsgeräuschlandschaften – die durch einen gemeinsamen Diffusionsprozess gleichzeitig mit dem Video produziert werden. Geben Sie Start- und Endbilder an, führen Sie Inhalte mit bis zu 3 Referenzbildern und verlängern Sie Clips auf insgesamt bis zu 148 Sekunden.

48-kHz-synchronisiertes Audio: Dialoge, Soundeffekte und Umgebungsgeräuschlandschaften, die gemeinsam mit Video generiert werdenBis zu 4K-Ausgabe in 16:9 oder 9:16, 4 Sek. / 6 Sek. / 8 Sek. Dauer bei 24 Bildern pro SekundeStart- und Endbildsteuerung und bis zu 3 Referenzbilder pro GenerationVideoerweiterung auf bis zu 20 Iterationen für Sequenzen mit einer Gesamtlänge von bis zu 148 Sekunden

Veo 3.1 Pro

Google DeepMind, veröffentlicht im Oktober 2025. Wählen Sie Veo 3.1 Pro für maximale Qualität und 4K-Ausgabe; Verwenden Sie Veo 3.1 Fast für eine schnellere Generierung und geringere Kosten bei iterationsintensiven Workflows.

Cinematic Veo 3.1-Vorschau

Generieren Sie 4K-Videos mit synchronisierten Dialogen, Soundeffekten und Umgebungsgeräuschen aus einer einzigen Textaufforderung.

Vorlagenvideo abspielen
Cinematic Veo 3.1-Vorschau

Veo 3.1 Pro

Cinematic Veo 3.1-Vorschau

Generieren Sie 4K-Videos mit synchronisierten Dialogen, Soundeffekten und Umgebungsgeräuschen aus einer einzigen Textaufforderung.

Cinematic Veo 3.1-Vorschau 1
Cinematic Veo 3.1-Vorschau 2

Funktionen des Veo 3.1 AI-Videogenerators

Natives synchronisiertes 48-kHz-Audio

Veo 3.1 generiert im selben Durchgang wie das Video drei Audiospuren: Dialoge und Sprache synchronisiert mit den Lippenbewegungen der Charaktere, Soundeffekte, die Bild für Bild auf die Aktion auf dem Bildschirm abgestimmt sind, und Umgebungsgeräuschlandschaften, die zur Szenenumgebung passen. Der Ton läuft mit 48 kHz Stereo – professionelle Sendequalität – mit einer audiovisuellen Latenz von ca. 10 ms, was deutlich innerhalb der Sendetoleranzstandards liegt.

Rahmenspezifische Generierung mit Referenzbildern

Definieren Sie den genauen visuellen Startpunkt und das Endbild eines Clips und stellen Sie bis zu drei Referenzbilder bereit, um das Erscheinungsbild des Motivs, die Szenenkomposition oder den visuellen Stil zu steuern. Veo 3.1 interpoliert kohärente Bewegungen zwischen angegebenen Frames unter Berücksichtigung von Referenzbeschränkungen und bietet Ihnen Regiepräzision am Anfang und Ende jedes generierten Clips.

Videoverlängerung bis zu 148 Sekunden

Erweitern Sie einen zuvor generierten Veo-Clip um 7 Sekunden pro Erweiterung, bis zu 20 Iterationen, für insgesamt bis zu 148 Sekunden kontinuierliches Video aus einer einzigen Originalgeneration. Jede Erweiterung setzt die visuelle und akustische Erzählung nahtlos fort und behält dabei Beleuchtung, Charaktere, Szenenkonsistenz und Umgebungsgeräusche aus dem vorherigen Segment bei.

So erstellen Sie ein Veo 3.1 AI-Video

01

Schreiben Sie eine Aufforderung, in der Sie die Szene, die Handlung des Motivs, die Kamerabewegung, die Beleuchtung und alle Dialoge in Anführungszeichen beschreiben

02

Laden Sie optional ein Startbild, ein Endbild oder bis zu 3 Referenzbilder hoch, um die visuelle Identität und Szenenkomposition zu verankern

03

Wählen Sie das Seitenverhältnis (16:9 oder 9:16), die Dauer (4 Sek., 6 Sek. oder 8 Sek.) und die Qualitätsstufe (Pro für 4K, Schnell für Geschwindigkeit).

04

Aktivieren Sie natives Audio, um neben dem Video automatisch Dialoge, Soundeffekte und Umgebungsgeräusche zu erzeugen

05

Verlängern Sie einen fertigen Clip um jeweils 7 Sekunden, bis zu 20 Wiederholungen, um längere Erzählsequenzen ohne erneute Eingabeaufforderungen zu erstellen

Beste Veo 3.1-Anwendungsfälle

Beste Veo 3.1-Anwendungsfälle

01

Filmische Werbung: Produzieren Sie 4K-Produktspots mit synchronisierten Dialogen, Ambient-Musik und realistischer Bewegung in einer Generation

02

Kurzfilm-Vorproduktion: Erstellen Sie Szenen in Storyboard-Qualität mit Kamerabewegungen und nativem Ton, um sie vor der Live-Produktion auszuwerten

03

Podcast- und Sprecherinhalte: Erstellen Sie Talking-Head-Clips mit synchronisierter Sprache für Social-Media-Clips und Erklärvideos

04

Natur- und Reiseinhalte: Erstellen Sie fotorealistische Außenszenen mit vielschichtigem Umgebungsaudio – Wind, Wasser, Tierwelt – für Dokumentararbeiten

05

Lehrvideoentwürfe: Erstellen Sie kommentierte visuelle Sequenzen, in denen ein Moderator ein Konzept mit passendem Ton auf dem Bildschirm erklärt

06

Markenkampagnenserie: Verwenden Sie Referenzbilder und Videoerweiterungen, um konsistentes Marken-Storytelling für mehrere Segmente in 4K zu produzieren

Tipps zur Eingabeaufforderung für Veo 3.1

Setzen Sie Dialoge in Anführungszeichen und benennen Sie die sprechende Figur, um die Lippensynchronisations-Engine zum richtigen Thema zu leiten
Beschreiben Sie die Audioumgebung explizit – Innenhall, Außenwind, Menschenlärm oder Musiktempo bestimmen die Umgebungserzeugung
Verwenden Sie Start- und Endbilder, um die Szenenübergänge und die Motivposition im gesamten Clip präzise zu steuern
Führen Sie Veo 3.1 Fast aus, um die Komposition und Audioregie schnell zu testen, und wechseln Sie dann für das endgültige 4K-Rendering zu Pro
Geben Sie die Kamerabewegung im Klartext an: „Langsames Einschieben“, „Orbit links“ oder „Dolly-Track vorwärts“ liefern zuverlässige Ergebnisse

So verwenden Sie Veo 3.1

Schreiben Sie eine detaillierte Szenenaufforderung mit Beleuchtung, Kamerabewegung, Tonhinweisen und Dialogen, um die gemeinsame Audio-Video-Generierung zu maximieren
Laden Sie Referenzbilder hoch, um das Erscheinungsbild des Charakters, den visuellen Stil der Marke oder die Zusammensetzung der Umgebung zu definieren, die konsistent bleiben müssen
Verwenden Sie die bildspezifische Generierung, um zwei bekannte visuelle Zustände zu überbrücken – ein Produkt vorher und nachher oder ein dramatischer Szenenübergang
Verketten Sie Videoerweiterungsaufrufe, um Sequenzen mit mehreren Segmenten zu erstellen, wobei jede Erweiterung die Audio- und visuelle Erzählung auf natürliche Weise fortsetzt
Verwenden Sie Veo 3.1 Fast für die Iteration der Ansageregie und des Audiokonzepts und verwenden Sie dann Pro für die endgültige veröffentlichte Version

Häufig gestellte Fragen zu Veo 3.1

Wie generiert Veo 3.1 natives Audio?

Veo 3.1 verwendet einen gemeinsamen Diffusionsprozess, der Audio und Video gleichzeitig und nicht in separaten Schritten generiert. Es werden drei Audioebenen erstellt: Dialoge, die mit den Lippenbewegungen der Charaktere synchronisiert sind, Soundeffekte, die zeitlich auf Aktionen auf dem Bildschirm abgestimmt sind, und Umgebungsgeräusche. Der Ton läuft mit 48 kHz Stereo und einer Latenz von ca. 10 ms relativ zur Bildspur – weit innerhalb der professionellen Broadcast-Toleranz.

Kann ich Dialoge zu Veo 3.1-Videos hinzufügen?

Ja. Geben Sie den Dialog direkt in Ihrer Eingabeaufforderung an, indem Sie den gesprochenen Text in Anführungszeichen setzen und den sprechenden Charakter benennen. Veo 3.1 generiert die entsprechende Sprache synchronisiert mit den Lippenbewegungen der Figur. Es unterstützt mehrere Sprecher und ermöglicht eine natürliche Gesprächsabwicklung innerhalb eines einzigen Clips.

Was ist eine Videoerweiterung und wie oft kann ich sie verwenden?

Die Videoerweiterung fügt einem zuvor generierten Veo-Clip 7 Sekunden hinzu und setzt sowohl die visuelle Erzählung als auch die Audioumgebung dort fort, wo das Original endete. Sie können einen Clip bis zu 20 Mal verlängern und so eine Sequenz von bis zu ca. 148 Sekunden erstellen. Die Erweiterung ist für die 720p-Ausgabe verfügbar und das Video muss ein von Veo generierter Clip sein.

Was ist der Unterschied zwischen Veo 3.1 Pro und Veo 3.1 Fast?

Veo 3.1 Pro liefert maximale Ausgabequalität mit voller 4K-Unterstützung und höchster Zeittreue, geeignet für kreative Arbeiten in der Endphase. Veo 3.1 Fast generiert mit geringerer Latenz und geringeren Kosten, was es praktisch für eine schnelle Iteration macht – zum Testen von Audiohinweisen, Komposition und Szenenrichtung, bevor man sich für ein Pro-Rendering entscheidet.

Wie viele Referenzbilder kann ich mit Veo 3.1 verwenden?

Veo 3.1 akzeptiert bis zu 3 Referenzbilder pro Generation, um den Inhalt zu leiten. Referenzbilder können das Erscheinungsbild von Charakteren, die visuelle Identität des Produkts, das Umgebungsdesign oder kompositorische Einschränkungen angeben. Sie arbeiten mit der Textaufforderung zusammen, um die Ausgabe an bestimmte visuelle Anforderungen anzupassen.

Welche Auflösungen und Dauern unterstützt Veo 3.1?

Veo 3.1 generiert 720p-, 1080p- oder 4K-Videos mit 24 Bildern pro Sekunde. Die unterstützten Clipdauern betragen 4 Sekunden, 6 Sekunden und 8 Sekunden pro Generation. Zu den Seitenverhältnissen gehören 16:9 Querformat und 9:16 Hochformat. Die 4K-Option ist für Veo 3.1 Pro verfügbar und für die Lite-Variante nicht verfügbar.