KI-Fortschritte – ChatGPT macht aus Texten Videos

Die Künstliche Intelligenz (KI) erreicht einen weiteren Meilenstein, und der Chatbot ChatGPT von OpenAI spielt dabei eine zentrale Rolle. Künftig soll das KI-Modell namens Sora in der Lage sein, kurze Videos aus Textvorgaben zu generieren. Dieser innovative Ansatz wird derzeit in einer Testphase erprobt, um mögliche Sicherheitsrisiken und Fälschungsgefahren zu evaluieren.

OpenAI-Chef Sam Altman gab bekannt, dass Sora zunächst ausgewählten Kreativen zur Verfügung stehen wird, während Experten Sicherheitsrisiken intensiv prüfen, bevor die Technologie breit eingesetzt werden kann. Die Möglichkeit, bewegte Bilder aus reinen Text-Vorgaben zu erzeugen, könnte langfristig die Videoproduktion revolutionieren. Dennoch bestehen erhebliche Bedenken hinsichtlich der potenziellen Entstehung von hochqualitativen Fake-Videos, die von echten Aufnahmen kaum zu unterscheiden wären. Daher arbeiten die Entwickler an Methoden, um eindeutige Erkennungsmerkmale wie Wasserzeichen in die generierten Videos einzufügen.

Die von Sora erstellten Videos können bis zu einer Minute dauern und sollen klar als KI-generiert erkennbar sein. OpenAI veröffentlichte auf der Software-Webseite mehrere Beispiele, darunter ein Video einer Frau, die eine Straße überquert. Die Textvorgabe für dieses Video umfasste Anweisungen zur Kleidung der Frau, zum Ort (in diesem Fall mit einem Verweis auf Tokio und Neon-Leuchtreklame) und zur atmosphärischen Stimmung.

Trotz der aufkommenden KI-Videoerstellungstechnologie weist OpenAI darauf hin, dass Sora noch Schwächen aufweist. Insbesondere können Fehler bei der Umsetzung physikalischer Gesetze auftreten. Als Beispiel wird genannt, dass es passieren kann, dass jemand im Video von einem Keks abbeißt, und der Keks später immer noch vollständig erscheint.

In einem parallelen Fortschritt im Bereich KI-Software berichtet Google von der Weiterentwicklung von Gemini 1.5, die sich auf Videoanalyse konzentriert. Diese Software kann längere Videos und Texte analysieren und wurde sogar darauf getestet, lustige Momente im Protokoll der Apollo-11-Raumfahrtmission zu finden. Gemini 1.5 Pro bietet eine erweiterte Kapazität zur Analyse von bis zu einer Stunde Video, elf Stunden Audioaufnahmen, Texten mit einer Länge von bis zu 700.000 Wörtern sowie bis zu 30.000 Zeilen Software-Code.

Beide Entwicklungen zeigen die kontinuierlichen Fortschritte in der KI-Technologie und eröffnen neue Perspektiven für die Anwendung von künstlicher Intelligenz in der multimedialen Content-Erstellung und -Analyse.

Zu: OpenAI – Sora

Hinterlasse einen Kommentar