Ich habe fast ein Jahr lang KI-Bildgenerierungsmodelle getestet, auf der Suche nach einem, das schöne illustrierte Seiten für personalisierte Bücher für Großeltern erzeugen kann. Das Ergebnis: Keines davon ist perfekt. Aber eines kommt am nächsten dran.
Das ist Seedream 4.5 von ByteDance. Hier ist, wie ich dort gelandet bin.
Midjourney: toll für Künstler, unbrauchbar für Produkte
Das erste Modell, das ich ernsthaft getestet habe, war Midjourney Version 7. Die Bilder sind wirklich schön. Aber ein großer Teil der besten Ergebnisse hat mit den ursprünglichen Prompts kaum etwas zu tun. Das ist kein Zufall. Midjourney ist darauf ausgelegt, dass ein Mensch mit gutem Auge die besten Bilder aus einem Stapel herausfiltert, den Rest wegwirft und von vorne anfängt. Was die Community “Prompt-Treue” nennt, ist meistens einfach Glück, das wie Absicht aussieht.
Für persönliche künstlerische Arbeit ist das völlig in Ordnung. Für ein Produkt, das eine bestimmte Szene aus dem Leben einer bestimmten Person generieren und dabei zuverlässig richtig liegen soll, funktioniert das nicht. Eine Pipeline, die auf Zufallstreffer angewiesen ist, lässt sich nicht betreiben.
Dazu kommt das API-Problem. Stand 2026 gibt es noch immer keine offizielle öffentliche API von Midjourney. Drittanbieter-Wrapper existieren, aber die laufen über Browser-Automatisierung und verstoßen gegen die Nutzungsbedingungen. Das Konto kann jederzeit gesperrt werden. Midjourney hat bewusst entschieden, künstlerische Qualität über Automatisierbarkeit zu stellen. Nachvollziehbar. Aber damit schied es vom ersten Tag aus.
Nano Banana (Google)
Googles Nano-Banana-Modelle (Nano Banana 2 und Nano Banana Pro) basieren auf Geminis Bildgenerierungsfähigkeiten.
Die Prompt-Treue ist wirklich gut. Wer etwas Konkretes beschreibt, bekommt es. Für einen Anwendungsfall, bei dem der Prompt viel tragen muss, also Haarfarbe, Kleidung, Zeitepoche, Setting, mehrere Figuren, ist das wichtig.
Zwei Dinge haben mich trotzdem gestoppt.
Erstens die Ästhetik. Das Herbst-Campus-Bild weiter unten zeigt das Problem: schöne Komposition, angenehme Farben, aber eine unangenehme Gleichmäßigkeit. Jedes Element gleich stark ausgearbeitet, kein Papier, das durchscheint, keine weichen Kanten, an denen Farbe ausläuft. Es sieht genau so aus, wie die meisten Menschen sich “KI-Bilder” vorstellen. Für ein Buch, das jemand ins Regal stellt und aufhebt, ist das ein Problem.
Zweitens die Kosten. Nano Banana 2 kostet 0,08 $ pro Bild, Nano Banana Pro 0,15 $. Seedream 4.5 kostet 0,04 $. Bei 24+ Illustrationen pro Buch und bis zu 50 kostenlosen Nachbesserungen während der Review-Phase summiert sich das schnell. Ich habe Nano Banana Pro kurz für die Darstellung von Seitentiteln getestet, aber bei 0,15 $ pro unzuverlässigem Versuch ist ein sauberes CSS mit gutem Webfont die bessere Wahl.
Flux
Flux Pro hat einen angenehmen Illustrationsstil und ordentliche Prompt-Treue. Aber das Bild unten zeigt das Kernproblem: gute Komposition, schöne Stoff-Textur, vollkommen generisches Gesicht. Das Modell ließ sich von den Referenzfotos inspirieren, anstatt sie wirklich zu lernen. Bei einem Produkt, bei dem das Buch wie die konkrete Person darin aussehen soll, ist das ein grundlegendes Versagen.
Flux 2 ist auf andere Weise schlechter. Die Ergebnisse wirken wie KI-Einheitsbrei: zu glatt, zu sauber, alles an der richtigen Stelle, aber ohne die kleinen Unvollkommenheiten, die ein Aquarell menschlich machen. Ein Vergleich mit dem Seedream-4-Alpenbild weiter unten macht den Unterschied klar. Das eine sieht gemalt aus. Das andere sieht generiert aus.
Grok / Aurora
Die Bildqualität ist technisch in Ordnung: gute Prompt-Treue, Ästhetik besser als bei vielen Konkurrenten. Aber ich habe eine persönliche Abneigung dagegen, Elon Musks Unternehmungen zu finanzieren. Seine Plattform hat jahrelang Hetze verstärkt. Während des Bundestagswahlkampfs hat er sich aktiv eingemischt, wiederholt die AfD beworben und Alice Weidel auf X eine große Bühne verschafft. Das ist für mich keine abstrakte politische Position, sondern eine konkrete Entscheidung: Ich möchte nicht, dass Geld, das ich für API-Aufrufe ausgebe, dieses Ökosystem mitfinanziert. Andere werden das anders abwägen, und das Modell ist technisch legitim. Für mich ist es aus der Liste, unabhängig von der Bildqualität.
Seedream 4
Bei Seedream 4 habe ich zum ersten Mal etwas gefunden, das ich bei keinem anderen Modell gesehen hatte: Es sah tatsächlich aus wie ein Aquarell.
Ein Hinweis zu den folgenden Bildern: Sie zeigen alle mich, in verschiedenen Altersstufen. Der Junge bin ebenfalls ich.
Es gibt eine Wärme und Weichheit in der Darstellung, eine handgemachte Qualität, die ich anderswo nicht gefunden habe. Das Alpenbild unten zeigt das gut: Der Berghintergrund löst sich auf, anstatt hart abzuschneiden. Das Gras an den Füßen läuft in den Hang über. Für ein Buch, das eine Oma in die Hand nimmt und ihren Enkeln zeigt, zählt das mehr als technische Präzision.
Das Problem war die Zuverlässigkeit. Seedream 4 produzierte eine schöne Seite und dann, bei der nächsten Generierung, etwas anatomisch Falsches. Das Wasserpistolen-Bild unten ist ein gutes Beispiel: schöne Komposition, tolle Sommerenergie, warmes Nachmittagslicht. Der Junge im Vordergrund hat außerdem drei Arme.
Sobald der Prompt eine komplexere Anordnung beschrieb, also mehrere Figuren, ungewöhnliche Winkel, aktive Szenen, konnte das Modell auseinanderfallen. Und wenn die Referenzfotos 50 Jahre alt sind und aus einem echten Fotoalbum gescannt wurden, hat das Modell weniger zu lernen und die Ergebnisse werden unzuverlässiger. Das ist kein Randfall für dieses Produkt. Die meisten Menschen, über die wir Bücher machen, haben vor dem Digitalfoto-Zeitalter gelebt.
Der Wechsel zu 4.5
Ich habe den Wechsel länger hinausgezögert als nötig. Die ersten Ergebnisse von Version 4.5 haben mich nicht so gepackt wie Version 4, und ich habe das zunächst als Qualitätsverlust gedeutet. War es nicht. Die Ästhetik ist etwas anders, und ich musste mich daran gewöhnen. Was sich tatsächlich verbessert hat, ist die Prompt-Treue: Die anatomischen Fehler und Kompositionsprobleme aus Version 4 treten in 4.5 deutlich seltener auf.
Das Campus-Bild unten zeigt das in der Praxis. Die Figur ist in Bewegung, die Ähnlichkeit mit dem Referenzfoto ist besser, und die Aquarellqualität ist noch da: die Farbspritzer im Himmel, der negative Raum auf dem Weg, die Hintergrundfiguren, die angedeutet statt vollständig ausgearbeitet sind.

Seedream 4.5. Bessere Prompt-Treue, eine treffendere Ähnlichkeit, und die Aquarellqualität ist noch da.
Vollständig behoben sind die Probleme noch nicht, weshalb wir einen Review-Prozess gebaut haben, bei dem jede Seite von einem Menschen geprüft wird, bevor irgendetwas in den Druck geht. Die Leute vertrauen uns ihre Familiengeschichten an. Eine Oma, die ein Buch bekommt, auf dem sie drei Hände hat, ist nicht akzeptabel.
Eine Komplikation, die ich nicht erwartet hatte: ethnische Drift. Seedream wurde überwiegend mit asiatischen Daten trainiert, und ohne explizite Angaben neigt das Modell dazu, Gesichter mit ostasiatischen Merkmalen zu generieren. Für ein Buch über eine Oma aus dem Bayerischen Wald oder aus Hamburg ist das ein offensichtliches Missverhältnis: nicht weil etwas falsch wäre an diesen Gesichtszügen, sondern weil sie diese Menschen schlicht nicht darstellen.
Die Lösung war ein optionaler Schritt im Onboarding, bei dem Kunden ihren familiären Hintergrund beschreiben können, ergänzt durch ein Vision-Modell, das Referenzfotos analysiert und physische Merkmale für den Bildprompt extrahiert. Das funktioniert einigermaßen gut. Aber die Erfassung ethnischer Herkunftsdaten bedeutet die Verarbeitung besonderer Kategorien im Sinne der DSGVO, was ausdrückliche Einwilligung und sorgfältigere Handhabung erfordert als ein normales Datenfeld. Ein kleiner technischer Fix, der eine nicht ganz kleine Compliance-Frage aufgemacht hat.
Warum Seedream 5 nicht funktioniert hat
Ich habe es getestet. Die Ergebnisse waren enttäuschend.
ByteDance hat mit 5.0 Lite einen bewussten Kompromiss gemacht: Das Modell ist auf kommerzielle Produktfotografie, Werbemotive und Poster ausgelegt. Der Fotorealismus ist besser. Aber der Vergleich mit dem Seedream-4-Alpenbild oben sagt alles: Jeder Zentimeter der Fläche ist ausgefüllt. Die Jacke hat einzeln ausgearbeitete Knöpfe. Die Stadt unten hat vollständig detaillierte Ziegeldächer. Kein negativer Raum, kein durchscheinendes Papier, nirgendwo Luft zum Atmen. Es fühlt sich an wie ein Foto, über das jemand Pinselfarbe gestrichen hat, nicht wie etwas, das wirklich gemalt wurde.
ByteDance hat angekündigt, die Ästhetikfrage beim vollständigen 5.0-Release nochmal anzugehen. Für die Lite-Version gilt: falsches Werkzeug für illustrierte Familienbücher.
Stand der Dinge
Seedream 4.5 ist meine aktuelle Antwort. Keine perfekte: Kein Modell ist das, weshalb die Bearbeitungsfunktion existiert und weshalb jede Seite vor dem Druck von einem Menschen geprüft wird.
Der Modellvergleich, der in diesem Bereich wirklich zählt, sind keine Benchmark-Werte. Es geht darum, wie das Ergebnis für eine 70-jährige Oma aussieht, die ein Buch über ihr Leben in der Hand hält. Die meisten dieser Modelle wurden nie für dieses Publikum entwickelt. Seedream 4.5 kommt dem am nächsten, was ich bisher gefunden habe.
Ich baue Memolio — personalisierte illustrierte Bücher für Großeltern, entstanden aus echten Fotos und echten Erinnerungen. Jedes andere personalisierte Buch für Großeltern setzt ihren Namen in eine erfundene Geschichte. Memolio erzählt ihre wirkliche Geschichte. Wenn du das für deine Familie möchtest, trag dich in die Warteliste ein.






