Wie man einen fesselnden Kurzfilm mit KI erstellt
Dieser Leitfaden führt Sie Schritt für Schritt durch die Nutzung von KI-Tools, um hochwertige Kurzfilme zu produzieren. Ausgehend von einem einfachen Referenzbild können Sie leistungsstarke Tools wie Nano Banana Pro, Kling AI und CapCut einsetzen, um eine kohärente Geschichte und ein visuelles Fest zu schaffen. Diese Methode stammt aus kreativen Ideen der KI-Community und ermöglicht es normalen Kreativen, professionelle Werke ohne teure Ausrüstung oder große Teams herzustellen.
1. Ursprünge und Präsentation des Endprodukts
Die Inspiration für diese Methode kommt aus der Community von KI-Enthusiasten auf der Plattform X. Zunächst teilte der User @techhalla zwei Prompts für Nano Banana Pro, die ein hochgeladenes Bild in ein filmartiges Grid-Storyboard umwandeln und Frames extrahieren können, um Videos zu erzeugen. Am Beispiel von Higgsfield AI zeigten diese Prompts, wie man Storyboards schnell erstellen kann. Allerdings erzeugten die originalen Prompts oft Frames aus verschiedenen Kamerawinkeln, was zu schlechter Kontinuität beim finalen Schnitt führte und es schwer machte, fließende Segmente zu bilden.
Später optimierte der Gründer dieser Website, Underwood, diese Prompts clever, indem er den Fokus auf die Erweiterung von Keyframes in derselben Szene und Handlung legte, um eine höhere Kontinuität zu gewährleisten. Seine Beiträge wurden am 30. November und 1. Dezember 2025 veröffentlicht und erzielten schnell über 500.000 Aufrufe sowie Tausende Interaktionen. Underwood teilte mehrere Testfälle, darunter Drachen-Szenen im Stil von Game of Thrones, magische Duelle aus Harry Potter, epische Elemente aus Der Herr der Ringe und Abenteuer-Aufnahmen à la Zelda. Diese Storyboards zeigen eindrucksvoll, wie KI aus einem einzelnen Bild 9–12 kontinuierliche Keyframes generieren und sie zu 10–20 Sekunden langen Sequenzen kombinieren kann. Hier ein Beispiel für einen rein mit KI erstellten Kurzfilm, der den gesamten Prozess von den Keyframes bis zum Endprodukt vollständig darstellt.
2. Wie geht's?
Hier ist ein detaillierter Ablauf, der mit kostenlosen oder abobasierten KI-Tools umgesetzt werden kann. Wir gehen davon aus, dass Sie ein Referenzbild vorbereitet haben (z. B. einen Filmscreenshot oder ein Originalbild), mit dem Ziel, einen 10–20 Sekunden langen Kurzfilm zu erstellen.
2.1. Keyframes mit Nano Banana generieren
Zuerst nutzen Sie Nano Banana Pro (ein Bildgenerierungs-Tool basierend auf Gemini 3 Pro), um ein Storyboard zu erstellen. Der Kern dieses Schritts ist Underwoods optimierter Prompt, der das Referenzbild zu einer Sequenz kontinuierlicher Keyframes erweitert.
-
Schritte:
- Greifen Sie auf Nano Banana Pro zu (über Gemini oder verwandte Plattformen).
- Laden Sie Ihr Referenzbild hoch.
- Geben Sie den optimierten Prompt ein (hier die vollständige Version von Underwood):
<role> You are an award-winning trailer director + cinematographer + storyboard artist. Your job: turn ONE reference image into a cohesive cinematic short sequence, then output AI-video-ready keyframes. </role> <input> User provides: one reference image (image). </input> <non-negotiable rules - continuity & truthfulness> 1) First, analyze the full composition: identify ALL key subjects (person/group/vehicle/object/animal/props/environment elements) and describe spatial relationships and interactions (left/right/foreground/background, facing direction, what each is doing). 2) Do NOT guess real identities, exact real-world locations, or brand ownership. Stick to visible facts. Mood/atmosphere inference is allowed, but never present it as real-world truth. 3) Strict continuity across ALL shots: same subjects, same wardrobe/appearance, same environment, same time-of-day and lighting style. Only action, expression, blocking, framing, angle, and camera movement may change. 4) Depth of field must be realistic: deeper in wides, shallower in close-ups with natural bokeh. Keep ONE consistent cinematic color grade across the entire sequence. 5) Do NOT introduce new characters/objects not present in the reference image. If you need tension/conflict, imply it off-screen (shadow, sound, reflection, occlusion, gaze). </non-negotiable rules - continuity & truthfulness> <goal> Expand the image into a 10–20 second cinematic clip with a clear theme and emotional progression (setup → build → turn → payoff). The user will generate video clips from your keyframes and stitch them into a final sequence. </goal> <step 1 - scene breakdown> Output (with clear subheadings): - Subjects: list each key subject (A/B/C…), describe visible traits (wardrobe/material/form), relative positions, facing direction, action/state, and any interaction. - Environment & Lighting: interior/exterior, spatial layout, background elements, ground/walls/materials, light direction & quality (hard/soft; key/fill/rim), implied time-of-day, 3–8 vibe keywords. - Visual Anchors: list 3–6 visual traits that must stay constant across all shots (palette, signature prop, key light source, weather/fog/rain, grain/texture, background markers). </step 1 - scene breakdown> <step 2 - theme & story> From the image, propose: - Theme: one sentence. - Logline: one restrained trailer-style sentence grounded in what the image can support. - Emotional Arc: 4 beats (setup/build/turn/payoff), one line each. </step 2 - theme & story> <step 3 - cinematic approach> Choose and explain your filmmaking approach (must include): - Shot progression strategy: how you move from wide to close (or reverse) to serve the beats - Camera movement plan: push/pull/pan/dolly/track/orbit/handheld micro-shake/gimbal—and WHY - Lens & exposure suggestions: focal length range (18/24/35/50/85mm etc.), DoF tendency (shallow/medium/deep), shutter “feel” (cinematic vs documentary) - Light & color: contrast, key tones, material rendering priorities, optional grain (must match the reference style) </step 3 - cinematic approach> <step 4 - keyframes for AI video (primary deliverable)> Output a Keyframe List: default 9–12 frames (later assembled into ONE master grid). These frames must stitch into a coherent 10–20s sequence with a clear 4-beat arc. Each frame must be a plausible continuation within the SAME environment. Use this exact format per frame: [KF# | suggested duration (sec) | shot type (ELS/LS/MLS/MS/MCU/CU/ECU/Low/Worm’s-eye/High/Bird’s-eye/Insert)] - Composition: subject placement, foreground/mid/background, leading lines, gaze direction - Action/beat: what visibly happens (simple, executable) - Camera: height, angle, movement (e.g., slow 5% push-in / 1m lateral move / subtle handheld) - Lens/DoF: focal length (mm), DoF (shallow/medium/deep), focus target - Lighting & grade: keep consistent; call out highlight/shadow emphasis - Sound/atmos (optional): one line (wind, city hum, footsteps, metal creak) to support editing rhythm Hard requirements: - Must include: 1 environment-establishing wide, 1 intimate close-up, 1 extreme detail ECU, and 1 power-angle shot (low or high). - Ensure edit-motivated continuity between shots (eyeline match, action continuation, consistent screen direction / axis). </step 4 - keyframes for AI video> <step 5 - contact sheet output (MUST OUTPUT ONE BIG GRID IMAGE)> You MUST additionally output ONE single master image: a Cinematic Contact Sheet / Storyboard Grid containing ALL keyframes in one large image. - Default grid: 3x3. If more than 9 keyframes, use 4x3 or 5x3 so every keyframe fits into ONE image. Requirements: 1) The single master image must include every keyframe as a separate panel (one shot per cell) for easy selection. 2) Each panel must be clearly labeled: KF number + shot type + suggested duration (labels placed in safe margins, never covering the subject). 3) Strict continuity across ALL panels: same subjects, same wardrobe/appearance, same environment, same lighting & same cinematic color grade; only action/expression/blocking/framing/movement changes. 4) DoF shifts realistically: shallow in close-ups, deeper in wides; photoreal textures and consistent grading. 5) After the master grid image, output the full text breakdown for each KF in order so the user can regenerate any single frame at higher quality. </step 5 - contact sheet output> <final output format> Output in this order: A) Scene Breakdown B) Theme & Story C) Cinematic Approach D) Keyframes (KF# list) E) ONE Master Contact Sheet Image (All KFs in one grid) </final output format> - Generieren Sie das Storyboard: Die KI erstellt ein 3x3- oder ähnliches Grid-Bild, wobei jede Zelle ein Keyframe ist, ergänzt um Labels wie KF#, Dauer und Shot-Typ.
-
Tipps: Wenn der Prompt zu lang ist, machen Sie einen Screenshot und geben Sie ihn ein. Bei Tests wählen Sie ein klares Referenzbild, um zu verhindern, dass die KI irrelevante Elemente einfügt.
2.2. Übergänge mit Klings "Start/End Frame Reference" füllen
Zuerst holen Sie hochauflösende Bilder jedes Keyframes als Start- und Endframes für das Video. Sie können diese mit Nano Banana Pro extrahieren, z. B. mit einem Prompt wie "Extrahiere den Bildinhalt aus Zeile x, Frame x, und entferne schwarze Ränder."
Dann nutzen Sie Kling AI, um die Übergänge zwischen Keyframes zu füllen und kohärente Videosegmente zu erzeugen. Kling unterstützt Start/End-Frame-Referenzen und erstellt automatisch Zwischeninhalte.
-
Schritte:
- Greifen Sie auf die kreative Oberfläche von Kling AI zu.
- Klicken Sie auf das "Start & End Frames"-Icon, laden Sie den ersten Frame des Storyboards als Start und den letzten als End hoch.
- Geben Sie einen Prompt ein: Zum Beispiel "Beginne mit [Beschreibung des Start-Frames], ende mit [Beschreibung des End-Frames], [füge Änderungsdetails hinzu, wie Charakterhandlungen oder Kamerabewegungen]." Wie: "Beginne mit dem Drachen, der den Krieger überblickt, ende mit dem Krieger, der sein Schwert zieht und angreift, schiebe die Aufnahme langsam vor, füge Schneenebel-Effekte hinzu."
- Optional: Legen Sie die Videodauer fest (3–10 Sekunden).
- Generieren Sie das Video: Kling erstellt Übergänge basierend auf dem Prompt und stellt die Gesamtkontinuität sicher.
-
Tipps: Fügen Sie detaillierte Beschreibungen hinzu, um die Genauigkeit zu verbessern, z. B. "Halte dieselbe Beleuchtung und Atmosphäre bei." Bei mehreren Subjekten laden Sie zusätzliche Referenzbilder hoch (bis zu 7). Das Tool unterstützt gemischte Bild- und Video-Referenzen.
In diesem Beitrag werden die tatsächlichen Operationen zur Generierung jedes Segments detailliert beschrieben.
2.3. Bearbeiten und Verfeinern mit CapCut
Zuletzt verwenden Sie CapCut, um die Videos zu überarbeiten und den finalen Schnitt vorzunehmen. CapCut ist ein kostenloser KI-Video-Editor, der Inhalte aus Skripten generieren und KI-erzeugte Segmente einfach optimieren kann.
-
Schritte:
- Laden Sie CapCut herunter und öffnen Sie es (unterstützt Desktop- oder Mobile-Versionen).
- Importieren Sie die von Kling generierten Videosegmente.
- Nutzen Sie Tools: Laden Sie Segmente hoch, wählen Sie Vorlagen oder geben Sie Skripte ein für automatischen Schnitt (z. B. Hinzufügen von Übergängen und Effekten).
- Manuelle Anpassungen: Passen Sie die Timeline an, fügen Sie Musik, Text, Effekte hinzu oder schneiden Sie inkonsistente Teile. Verwenden Sie KI-Sprachfunktionen, um Erzählungen zu generieren oder Audio zu ersetzen.
- Exportieren: Wählen Sie hohe Auflösung, um den finalen Kurzfilm zu erzeugen.
-
Tipps: Bei Fehlern in der KI-Generierung (z. B. unnatürliche Bewegungen) korrigieren Sie mit CapCuts Stabilisierung und Geschwindigkeitsanpassungen. Beim Zusammenfügen mehrerer Kling-Segmente zu einem vollständigen Kurzfilm achten Sie auf konsistente Tempo.
3. Herausforderungen und Erkenntnisse im Produktionsprozess
In der Praxis stoßen Sie vielleicht auf einige Herausforderungen, die jedoch oft zu tieferen Einsichten führen. Feedback aus der Community zeigt gängige Probleme wie Prompt-Kontext-Verschmutzung, Schwierigkeiten bei der Musik-Synchronisation und die Notwendigkeit manueller Eingriffe bei Übergängen. Konkret:
- Wie man KI zu geschichtengetriebenen Visuals bringt: Integrieren Sie Charakterbeziehungen und narrative Absichten in Prompts, um oberflächliche Ausgaben zu vermeiden. Verhindern Sie auch Prompt-Kontext-Verschmutzung – bei instabilen KI-Antworten starten Sie ein neues Gespräch, um Keyframes neu zu extrahieren und Konsistenz zu gewährleisten.
- Prompts in filmischer Sprache schreiben: Geben Sie Shot-Typen, Bewegungen und Kompositionsänderungen klar an, um Übergänge flüssiger zu machen und Professionalität zu steigern. Bei Kling-Generierung optimieren Sie Lücken in Übergängen mit detaillierten Beschreibungen (z. B. "Langsam vorstoßen und Atmosphäre beibehalten"), doch letztlich ist menschliche Intuition für Feinabstimmungen erforderlich.
- Der Schnitt ist die wahre Qualitätsgrenze: Shot-Kombinationen, Tempo-Kontrolle, emotionale Aufbau und audiovisuelle Synchronisation hängen von der Post-Production ab, die über Erfolg oder Misserfolg entscheidet. Besonders beim Hinzufügen von Hintergrundmusik erfordert Beat-Synchronisation oft manuelle Eingriffe; aktuelle KI-Tools können das nicht perfekt ersetzen. Empfohlen: Nutzen Sie CapCut für manuelle Anpassungen von Geschwindigkeit und Übergängen, um nahtlose Verbindungen zu erzielen.
Zusammenfassend ist die KI-Kurzfilm-Produktion wie eine Symphonie, die Drehbuch, Regie und Schnitt verwebt: Sie verbindet die Magie der Technologie perfekt mit menschlicher Inspiration. Wenn Sie den Puls der Geschichte geschickt erfassen, die Poesie der Shots zum Leben erwecken und jeden Rhythmus präzise steuern, blüht das Endprodukt mit einem Glanz jenseits der Vorstellungskraft auf. Dieser Prozess bricht nicht nur die Fesseln traditioneller Kreativität, sondern dient als Tor zu unendlicher Schaffenskraft und lädt jeden Träumer zu einer Entdeckungsreise ein.
Promptsref