Zum Hauptinhalt springen

KI-Bildgenerierung – ein Vergleich

· 6 Minuten Lesezeit

Wir schauen uns die Ergebnisse von fünf großen Text-zu-Bild-Programmen, basierend auf künstlicher Intelligenz, an. Verwendet wurden Adobe Firefly, Photoshop Generative-Fill, Dall-E, Microsoft Bing und Stable Diffusion.

the text "AI Image Generation" floating in the sky

Alle folgenden Bilder basieren auf demselben Input-String:

A dark hallway lit by neon lights. There is some small debris on the floor as well as an overweight cat.

Mein Gedankengang hierbei:

  • Ein Flur verschafft eine Perspektive und Fluchtpunkt
  • Neon-Lichter sorgen für eine komplexe Lichtstimmung
  • Kleineres Geraffel auf dem Boden bricht ansonsten uniforme Flächen auf
  • Eine Katze schadet nie
    • Das Adjektiv overweight wurde hinzugefügt, um einen weiteren Vergleichspunkt zu haben. Eine Katze können viele darstellen, aber durch die Konkretisierung muss das KI-Modell eine weitere Ebene verstehen und umsetzen.

Was ist Bildgenerierung und wie funktioniert es?

Ein Algorithmus (Computerprogramm) wird anhand einer Datenbasis trainiert – dem Algorithmus werden Informationen gefüttert. Aus dieser Datenbasis, hier Millionen von Bildern, werden Merkmale und Strukturen extrahiert und somit ‚verstanden‘. Wenn diese Schritte in ausreichender Menge durchgeführt wurden, ist es dem Algorithmus möglich, mit diesen extrahierten Verbindungen neues zu kreieren.

Die Ergebnisse folgen den erlernten Eigenschaften, aber sind stets etwas noch nie dagewesenes.

Angenommen, eine Person hat in ihrem Leben viele Pferde und Kühe gesehen, aber noch nie ein Schaf. Wenn ‚du‘ dieser Person jetzt ein Schaf beschreibst, kann diese versuchen, es auf Basis ihrer Lebenserfahrung zu malen und die Optik eines Schafs entsprechend ihres Wissens abzuleiten.

Die auf künstlicher Intelligenz basierenden Tools der jüngsten Vergangenheit funktionieren genauso – wenn man die Erklärung sehr weit herunterbricht.

Vergleiche

Vergleicht man verschiedene Varianten desselben Services untereinander, unterschieden sich die Ergebnisse zwar, jedoch sind die Ähnlichkeiten kaum zu uebersehen.

Firefly x Firefly

Firefly 2

Firefly 1 x Firefly 2

Firefly 1 x Firefly 2

Ein Vergleich zwischen Photoshops "Generative Fill" Variante zeigt hingegen bereits klare Unterschiede im Vergleich zur Adobe Firefly Version. Spannend, da theoretisch im Hintergrund ähnliche Modelle, bzw Services verwendet werden. Photoshop erzeugt in klar realistischeres Bild mit deutlich weniger "comic" Einschlägen.

Photoshop x Firefly 2

PS Generative Fill x Firefly 2

Ein Vergleich zwischen Photoshops "Generative Fill" Variante zeigt hingegen bereits klare Unterschiede im Vergleich zur Adobe Firefly Version. Spannend, da theoretisch im Hintergrund ähnliche Modelle, bzw Services verwendet werden. Photoshop erzeugt in klar realistischeres Bild mit deutlich weniger "comic" Einschlägen.

Adobe Firefly

Firefly ist eine Suite von KI-Tools, entwickelt von Adobe und 2023 veröffentlicht. Der Text-zu-Bild-Algorithmus basiert auf der Fotodatenbank von Adobe Stock.

Alle 'Adobe Firefly'-Bilder

Adobe Firefly 2

Update: 2024-02-10

Alle 'Adobe Firefly 2'-Bilder

Photoshop Generative-Fill

Seit Mitte 2023 kann Photoshop auf Adobe Firefly zugreifen und Teile oder komplette Bilder auf Wunsch generieren oder "auffüllen".

Alle 'Photoshop Generative-Fill'-Bilder

Dall-E

Alle 'Dall-E'-Bilder

Microsoft Bing

Alle 'Microsoft Bing'-Bilder

Ein Vergleich zwischen Microsoft Bing und Dall-E zeigt die unterschiedlichen Herangehensweisen in Bezug auf eine realistische Darstellung. Dall-E's Ergebnisse sind eher kühl, wohingegen Microsoft Bing Dramatik und eine film-esque Beleuchtung der Szene aufbaut.

Microsoft Bing x Dall-E

Stable Diffusion

Stable Diffusion ist Open Source und wurde im Jahr 2022 veröffentlicht. Die Ergebnisse sind oft eher abstrakt, bzw. erreichen sie rein subjektiv betrachtet nicht die Qualität der anderen Tools. Dafür kann es mit moderater Hardwareanforderung ohne Limitierungen auf privater Technik lokal ausgeführt werden. Hier bietet sich das 'T2I GUI'-Tool an.

Auf Reddit befindet sich ein detaillierter Thread mit vielen Erklärungen und Nutzungshinweisen zu Stable Diffusion.

Euler Ancestral

100 Steps, 704px x 704px, high-resolution fix, prompt guidance 9, default model, t2i-gui

Alle 'SD - Euler Ancestral'-Bilder

DPM++ 2 Ancestral

100 Steps, 704px x 704px, high-resolution fix, prompt guidance 9, default model, t2i-gui

Alle 'SD - DPM++ 2 Ancestral'-Bilder

Diffusion Bee

Es ist nicht möglich die gleichen Settings wie im 'T2I GUI'-Tool unter Windows zu verwenden. Außerdem kann man in Diffusion Bee den Sampler nicht auswählen. In beiden Tools habe ich das Standardmodell verwendet.

50 Steps, 512px x 512px, prompt guidance 8, default model, M1 Max

Alle 'Diffusion Bee'-Bilder

Auch Diffusion Bee als UI-Helper-Tool fuer Stable Diffusion ermoeglicht es mir nicht, huebschere Ergebnisse zu erzeugen.

Stable Diffusion x Diffusion Bee

Midjourney

Midjourney hat aktuell leider keine freie Verfügbarkeit. Es muss zwingend ein Abo abgeschlossen werden.

Fazit

In fast allen Ergebnissen ist die Katze prominent und zentral zu sehen. Stable Diffusion ist hier die einzige Ausnahme. Ebenso ist der "lit by neon lights" Einschlag klar umgesetzt worden. Einige Varianten erscheinen etwas comic artiger, Andere versuchen sich in einer realistischen Richtung.

Festzuhalten ist, dass Stable Diffusion klar am "schwersten" zu bedienen ist, bzw auf massiv weniger Trainingsdaten basiert als die "grossen" Modelle. Auch das hübsche UI Tool 'Diffusion Bee' hilft hier kaum weiter. Das Herumprobieren mit Stable Diffusion auf dem lokalen Rechner ist kurzweilig, zumindest jedoch meine Ergebnisse sind weit abgeschlagen und so kaum weiter verwertbar.

Microsoft Bing tut sich am schwersten mit der Katze und erzeugt in allen Varianten eine weniger prominent sichtbare und klar weniger ausgeprägte Katze. Jedoch ist diese in jedem Ergebnis immerhin zentraler Bildbestandteil.

Dall-E erzeugt die Katze ähnlich Microsoft Bing, jedoch ist die restliche Bildkomposition und Stil merklich realistischer.