Die Bildgenerierung mittels Generative AI (GenAI) erlebt derzeit eine überraschende Entwicklung, wobei zahlreiche neue Modelle auf den Markt kommen. War vor 3 Monaten noch Midjourney das Maß der Dinge, gibt es heute neue Modelle, die ähnlich gut oder besser sind. Doch für Unternehmen stellt sich die Herausforderung, dass der Zugang zu diesen Modellen generell oder in Deutschland oft eingeschränkt ist. Während ein einfacher Web-Test nützlich sein kann, um Katzenbilder zu vergleichen, benötigen Firmen einen konsistenten und maßgeschneiderte Ansatz, der Bilder im gleichen Stil, Charakteren und ggf. eigener Produkte liefert.
Bei Composable AI schauen wir uns die aktuellen Modelle an und prüfen, welcher Service konsistente Bilder liefern kann. Dazu muss die Bildgenerierung über eine API möglich sein und somit einen „Composable“ Ansatz verfolgen. Damit können verschiedene Services kombiniert und getestet werden, um den optimalen Workflow für kosistente Designs eines Unternehmens zu finden. Dieser Ansatz ermöglicht es, flexibel auf verschiedene Modelle zuzugreifen und diese effizient in den bestehenden Workflow zu integrieren. Durch das Komponieren und Anpassen verschiedener API-Dienste kann die Bildgenerierung standardisiert werden, was zu konsistenteren und qualitativ hochwertigeren Ergebnissen führt.
Einige der führenden GenAI-Modelle, die derzeit auf dem Markt sind, bieten verschiedene Vor- und Nachteile.
MidJourney hat gerade eine Web-Oberfläche bereitgestellt und operierte bisher primär über Discord. Midjourney ist bekannt für seine kreative und künstlerische Bildgestaltung. Es setzte die Maßstäbe was realistische Bilder und Stil-Konsistenz angeht. Der API Zugriff erfolgt über den Umweg – Discord – und muss Schritte zur Bildauswahl berücksichtigen, was die Integration in Unternehmensprozesse erschweren kann.
OpenAI’s API kombiniert mit DALL-E, ermöglicht die Generierung von Bildern direkt aus Textbeschreibungen (Prompts). Aus unserer Erfahrung sind die Bilder eher inkonsistent und müssen über genaue Prompt-Beschreibung gesteuert werden. Die API ist vergleichsweise robust, da diese auch für alle anderen Services genutzt wird.



Stability AI’s Stable Diffusion ist eine Open-Source-Plattform, die für ihre Flexibilität und Anpassungsfähigkeit bekannt ist. Über den API Service kann man auch direkt auf unterschiedliche Modelle zugreifen. Die Details erschließen sich nicht ganz einfach, aber liefern eine solide Konsisten. Die API bietet unterschiedliche Modelle von Ultra bis zur Standard Version. Überraschend sind unterschiedliche API Befehle, die ja nach Modell genutzt werden können oder nicht.



Ideogram.ai fokussiert sich auf die Integration von Text in Bilder und bietet verschiedene Stile, allerdings ist die API noch in der Beta-Phase und die Community befindet sich im Aufbau. Ideogram wird als „Next-Step“ nach Midjourney diskutiert. Die API ist schnell eingebunden und die ersten Ergebnisse zeigen realistische Engine.
Flux1 von Black Forest Labs bietet hohe Flexibilität mit verschiedenen Versionen für unterschiedliche Bedürfnisse. Es ist stark in der Realitätsnähe, entwickelt sich jedoch noch in Bereichen wie Illustration und Feintuning. Flux1 hat mit deutschen Gründern die Möglchkeit eine große Rolle für den regionalen Markt zu spielen. Aktuell bieten sie den Zugriff nur über eine Waitlist.
ImaGen3 von Google ist ein hochentwickeltes Tool, das detailreiche und kontextuell passende Bilder erzeugt, jedoch hohe Ressourcen erfordert und primär für Enterprise-Nutzer zugänglich ist. Die genauen Details bzgl. Konstistenz sind noch offen.
Die Stärke von Composable AI liegt darin, dass es Unternehmen ermöglicht, diese verschiedenen Modelle und APIs nahtlos zu kombinieren und so den optimalen Workflow für ihre spezifischen Anforderungen zu finden. Durch die Flexibilität, die Composable AI bietet, können Unternehmen ihre Bildgenerierungsprozesse nicht nur standardisieren, sondern auch kontinuierlich optimieren, um den sich ständig ändernden Marktanforderungen gerecht zu werden.