Digitales Leben Mit wenig Worten vom Prompt zum Bild

Wer sich per Künstlicher Intelligenz witzige bis surreale Bilder machen lassen möchte, sollte sich ein wenig der Kunst des Prompts widmen. Wir geben Tipps.

Bis zum Boom der neuen KI-Bilderprogramme sprachen nur noch Programmierer von Prompts. Gemeint war seit den Frühzeiten des Heimcomputers auf DOS-Niveau die Eingabeaufforderung C:\> im Command-Modus mit seinen CMD-Befehlen zur Steuerung des Rechners. Damit müssen sich User heute aber nur noch sehr selten beschäftigen. Genau genommen stellt aber auch jedes andere Eingabefenster auf aktuellen Websites einen Prompt dar, der auf die Texteingabe des Nutzers wartet.

Seit den frei im Internet zur Verfügung stehenden Bildgenerierungsprogrammen auf Basis Künstlicher Intelligenz erlebt der Prompt eine Renaissance. Sehr bekannt geworden sind Deep Dream von Google, DALL-E von OpenAI, GPT-3, ebenfalls von OpenAI oder Midjourney, das wegen zu großen Andrangs aber auch wegen Missbrauchs bei den Inhalten der erstellten Bilder nur noch per Abo nutzbar ist. Alle Bildgeneratoren funktionieren ähnlich: Nutzer müssen einen möglichst knappen und präzisen Text als Bildbeschreibung in ein Textfenster eingeben. Die KI deutet die Eingabe und bastelt aus ihren Bildbeständen etwas möglichst Passendes. Das gilt auch für die neue Funktion im Microsoft-Browser Edge. Dort lässt sich seit April in der anpassbaren Randzeile auch ein Image Creator aktivieren. Microsoft greift dabei auf DALL-E zurück; der Konzern ist schließlich einer der größten Geldgeber von Open AI. In Edge wie bei den meisten derzeitigen KI-Programmen ist die Eingabesprache aber auf Englisch beschränkt.

Wer sich hier nicht sicher fühlt, kann seine Bildbeschreibung aber durch eine andere Künstliche Intelligenz aus deutscher Herstellung leicht übersetzen lassen. Deepl (deepl.com) gilt hier als deutlich präziseres Programm als der Google-Übersetzer. Hier ein selbst gebasteltes Beispiel: [Renaissance-Gemälde, ein männliches und ein weibliches Nashorn in zeitgenössischer Kleidung, mit Sonnenbrillen, Hintergrund mit Tapete und dekorativen Ornamenten]. Deepl macht daraus: [Renaissance painting, a male and a female rhinoceros in contemporary clothes, with sunglasses, background with wallpaper and decorative ornaments].

Edge generiert nach dieser Beschreibung innerhalb etwa 20 Sekunden vier Bildvorschläge, die man sich herunterladen kann. Einer davon ist hier zu sehen. Die Bilder sind jeweils 1024 x 1024 Pixel groß, reichen also für Mails, WhatsApp oder die eigene Website. Bilder können frei privat, aber nicht kommerziell verwendet werden. Die Rechtslage ist hier noch nicht eindeutig entschieden.

Weil immer mehr Bilder mit solchen Texteingaben für Künstliche Intelligenz produziert werden, sind Virtuosen der Prompt-Eingabe derzeit stark nachgefragt. Es ist sogar ein neuer Beruf entstanden: der Prompt Engineer. Seine Aufgabe ist die möglichst effektive Formulierung von Prompts. Nebenbei lässt sich mit dem Vergleich zwischen Prompts und Resultaten eine Künstliche Intelligenz auch immer besser trainieren, mit menschlichen Spracheingaben umzugehen. Eine lange Karriere wird einem Prompt Engineer daher nicht beschieden sein, da KI-Programme uns mit jedem Prompt immer besser verstehen werden.