Acht-Drei: Ein 3D-Comic und ein Joint gegen die Tücken der Video-KI LTX 2.3

Manchmal muss man kreativ werden – nicht nur beim Schreiben von Texten, sondern auch beim Austricksen von Algorithmen. Mein neuer Track „Acht-Drei“ ist eine emotionale Zeitreise zurück in mein Geburtsjahr 1983. Es geht um die Ära der Kassetten, die man mit dem Bleistift wieder fit gemacht hat, um eine Jugend ohne Smartphones und das Gefühl, die Brücke zwischen der analogen Vergangenheit und dem digitalen Jetzt zu sein.

Das Besondere an diesem Projekt: Nicht nur das Video ist KI-generiert, das gesamte Werk ist eine Co-Kreation mit künstlicher Intelligenz. Die Grundidee und die emotionalen Eckpunkte des Songtexts stammen komplett von mir, aber das Finetuning und das Schreiben der finalen Zeilen hat Google Gemini übernommen. Doch damit nicht genug – Gemini hat im Anschluss auch direkt die hochspezialisierte Prompt-Optimierung für die Musik-KI suno.com ausgespuckt, mit der am Ende die komplette Audiospur generiert wurde.

Für diesen ehrlichen Vibe wollte ich ein ganz besonderes Musikvideo auf die Beine stellen: Ein echtes, ungeschnittenes One-Take-Video. Die Kamera sollte im Musikstudio bleiben und die pure Performance vor dem Mikrofon einfangen. Als Ausgangspunkt für dieses Experiment diente ein einfaches Foto von mir im Profil.

Technisch umgesetzt wird das Mammutprojekt mit der Video-KI LTX 2.3. Der Plan war simpel: Mein echtes Gesicht nehmen und mittels Image-to-Video in eine professionelle Studio-Umgebung versetzen. Dieses erste Studio-Startbild wurde ebenfalls mit Gemini editiert, um mich perfekt in Szene zu setzen. Das klappte im ersten Standbild auch überraschend gut.

Doch wer schon einmal mit Bild-zu-Video-Modellen gearbeitet hat, kennt das Frustpotenzial: Die visuelle Kontinuität bei fotorealistischen Gesichtern ist über längere Zeiträume eine absolute Katastrophe. Bewegt sich der Rapper zu wild oder dreht den Kopf auch nur minimal weg, vergisst die KI die Identität. Sobald man sich zurückdreht, erfindet das Modell plötzlich ein völlig neues Gesicht.

Nach etlichen Fehlversuchen habe ich das Konzept komplett umgeworfen: Wir gehen weg vom Realfilm und wechseln auf einen dreidimensionalen Comic- und Graphic-Novel-Stil. Das Geniale daran? Die KI versteht die klaren Geometrien, Kanten und Schattierungen eines 3D-Comic-Charakters viel besser und bleibt über das gesamte Video hinweg visuell stabil. Zudem erlaubt mir dieser Look, mich viel dynamischer wie ein Rapper vor dem Mikrofon zu bewegen, ohne dass die KI mein Gesicht verzerrt.

Das Video wird über die Last-Frame-Methode in insgesamt 19 Segmente (je 10 Sekunden, das Finale 2 Sekunden) unterteilt. Das jeweils letzte Standbild einer Szene ist immer der Startpunkt für die nächste. Da ich für den eigentlichen Videoschnitt und das Rendering auf eine lokale Software-Alternative auf meinem eigenen Rechner setze, muss ich bei der Prompt-Erstellung für LTX 2.3 extrem präzise sein, um keine kostbare Rechenzeit zu verschwenden. Auch hier greife ich auf Gemini zurück: Ich füttere die KI im Chat mit dem jeweiligen Last-Frame sowie den exakten Songtext-Zeilen für die nächste Szene. Gemini übersetzt das Ganze in hochgradig optimierte, englische LTX-Prompts, die genau steuern, welche Worte gelippensynchronisiert werden und welche LoRA-Stärken (für Static-Control, Detailer oder Talkvid) aktiv sein müssen.

Doch schon bei der allerersten Szene gab es ein riesiges Problem: In den ersten sechs Sekunden laufen nur Adlibs und der Beat, bevor der echte Text einsetzt. Die Lipsync-KI versucht in solchen Phasen aber krampfhaft, jedes Hintergrundgeräusch in Mundbewegungen zu übersetzen. Das sah extrem unnatürlich aus. Meine Lösung? Ein visueller Trick, den ich wieder mit Gemini ins Bild editiert habe: Ich habe meinem animierten Ich einen glimmenden Joint in die Hand gedrückt.

Über den lokalen LTX-Prompt habe ich eine strikte zeitliche Abfolge erzwungen: In den ersten sechs Sekunden bleibt der Mund für den Lipsync komplett zu. Der Charakter führt stattdessen den Joint zu den Lippen, nimmt einen tiefen Zug, während er lässig zum Beat nickt, und atmet den Rauch aus. Erst in den letzten vier Sekunden wechselt er in die Rap-Performance und setzt zum präzisen Lipsync für das erste echte Wort „Acht-Drei“ an. Aus einem technischen Problem wurde so ein verdammt cooles Style-Element, das perfekt zum Vibe des Tracks passt.

Insgesamt rechne ich mit rund 20 Stunden reiner Generierungszeit auf meiner lokalen Maschine, in denen unzählige Clips wegen kleiner Fehler oder neuer Ideen im Papierkorb landen werden. Es ist ein ständiges Iterieren und Verfeinern. Aber genau das ist echtes Commitment und Leidenschaft für die Kunst – damals wie heute. Seid gespannt auf das fertige Video!