Es fing mit künstlichen Bildern an, setzte sich mit Textgeneratoren zu Themen aller Art fort. Nun scheinen jeden Tag neue mehr oder minder nützliche Dienste auf Basis Künstlicher Intelligenz aufzutauchen. Ein Stand der Dinge.
Von Jo Wüllner
Ein schneller Verriss zum Start: Upscayl, ein neues kostenloses Programm für Mac und PC, will mit KI kleine Fotos groß und zugleich scharf machen. Das wäre ein nützliches Programm, wenn es denn funktionierte. Leider macht Upscayl aus einer kleinen Mona-Lisa-Abbildung mit feinem Alterscraquelé im Firnis eine zwar größere, aber matschige Dame ohne alle Kontur. Auch andere Experimente endeten unansehnlich. Ein Download ist nicht zu empfehlen.
Schon nützlicher ist Tome (tome.app). Die webbasierte KI bastelt auf Wunsch Präsentationen zu beliebigen Themen. Dabei werden knappe Texte und (meist) passende Bilder auf digitalen Folien kombiniert. In Texte, Bilder und die Reihenfolge der Folien lässt sich vor dem finalen Download korrigierend eingreifen. Das Programm bedient sich für die Bilder bei dem bekannten Dall-E 2, für die Texte bei dem schon berüchtigt bekannten Chat GPT. Die Texte sind daher verständlich, die Bilder aber manchmal schräg bis gruselig in ihrer Künstlichkeit. Das könnte besser werden, wenn stattdessen auf die bessere Bild-KI Midjourney zugegriffen werden könnte. Die ist aber bei Nutzern so begehrt, dass seit April keine kostenlose Version mehr angeboten wird. Tome müsste also bei Nutzung selbst zahlen und die Gebühren weiterreichen. Der Trend aber ist klar: Immer mehr kombinierte Dienste greifen schlicht auf bestehende KI-Dienste zu, fassen die unter einer eigenen Benutzeroberfläche zusammen und peppen das Ganze mit einigen Zusatzfunktionen auf.
Googles KI-Programm: EU muss noch warten
Googles KI-Abteilung ist wach geworden. Der Konkurrent von Chat-GPT wird gerade in 180 Ländern freigegeben. Basis ist ein Sprachmodell namens PaLM 2, das nach und nach im ganzen Google-Universum als ständiger Begleiter zur Verfügung stehen soll. Leider bleibt die EU mit ihren 27 Ländern inklusive Deutschland noch außen vor. Grund sind „Regulierungsfragen“ in Sachen Datenschutz und „Korrektheitskontrollen“ bei heiklen Themen. Immerhin können Literaturinteressierte die Wartezeit mit „Talk to Books“ überbrücken (books.google.com/talktobooks).
Wer auf der Website eine Frage stellt, dem werden Zitate aus Büchern geliefert. Dafür kann Google auf einen riesigen Bestand von gescannten und digital vorliegenden Büchern zugreifen. Fragen können in Deutsch gestellt werden, mehr und bessere Ergebnisse gibt es aber bei englischsprachigen Anfragen. Wer für Reden, Vorträge und Aufsätze aller Art sehr schnell einige treffende Sätze braucht, wird hier fündig. Englische Zitate sollten dann, falls nötig, aber nicht von Google Translate, sondern von DeepL (deepl.com) übersetzt werden. Da gibt es den besseren Stil.
Apropos DeepL: Dort gibt es nicht nur einen guten Übersetzungsdienst, der bei Texten bis zu 5000 Zeichen kostenlos ist, sondern auch einen KI-Korrektor-Lektor für Texte in Deutsch sowie britischem oder amerikanischem Englisch. Nach der Eingabe korrigiert die KI offensichtliche Fehler, macht aber auch Vorschläge für alternative Formulierungen. Die sind meist sinnig und dienen auf jeden Fall dem Stil- und Sprachtraining des Nutzers. Da der Dienst in der Beta-Phase ist, werden keine Gebühren erhoben.
KI-Programme für Videotüftler
Für Videotüftler gibt es immer mehr Dienste. Bei Synthesia (synthesia.io) lässt sich ein Text eingeben, der dann mit einer auswählbaren Computerstimme von einem ebenfalls auswählbaren Avatar mit passenden Mundbewegungen wiedergegeben wird. Die private Nutzung kostet 26 Euro im Monat. Die gelieferte Qualität ist den Preis nicht wert.
Interessanter ist d-id.com. Wie bei Synthesia wird Text einem Avatar in den Mund gelegt, es lassen sich aber auch eigene Porträts zwecks Animation hochladen. Das kann natürlich auch ein surreales Bild von einer Bildgenerierungs-KI sein. Ein Fünf-Minuten-Test ist kostenlos, für sechs US-Dollar im Monat lassen sich je zehn Minuten Video kreieren. Ein Sortiment sehr schicker Avatare mit besserer Stimmlage kostet bereits 50 US-Dollar Monatsgebühr. Aber nach einem Monat Nutzung sollte man einen hinreichend großen Pool interessanter Videobotschaften für viele Gelegenheiten gebastelt haben.
Als „Content Creation Suite“ versteht sich Runway (runwayml.com). Hier gibt es einen ganzen Pool von KI-Werkzeugen zur Bearbeitung von Bildern und Videos. Verblüffend gut funktionierte bei unserem Test das Verschwindenlassen von störenden Elementen aus Bildern. Nach der Markierung mit der Maus lässt sich eine Textbeschreibung (Prompt) eingeben, wodurch das störende Element durch das beschriebene ersetzt werden soll. Das klappt meist anstandslos. Wer oft Videos mit allerlei Effekten produzieren will, bekommt hier einen interessanten Arbeitsbereich.
Musik von der KI
Richtig vergnüglich war das Ausprobieren von Soundraw (soundraw.io). Dies ist eine Musik-KI. Beim Aufrufen der Website erscheint ein bilderreiches Auswahlmenü für das Genre und die musikalische Stimmung. Nach der Auswahl produziert das Programm innerhalb von wenigen Sekunden eine ganze Reihe von kurzen Musikstücken von bis zu drei Minuten Länge, die in einem weiteren Fenster samt virtueller Instrumentierung und akustischem Profil präsentiert werden. Die lassen sich Stück für Stück durchprobieren. All das kostet nichts. Erst beim MP3-Download werden Gebühren fällig. Die Soundtracks hören sich immer gefällig und manchmal sogar anregend an. Es ist eben Backgroundmusik, die früher als Muzak bezeichnet wurde. Wer aber etwas für den eigenen Film, eine Präsentation oder die Telefon-Warteschleife braucht, findet hier nach einigem Herumprobieren sicher eine anhörbare Lösung.