Der Text Encoder ist der Teil eines KI-Modells, der den geschriebenen Prompt „versteht“ und in Informationen für die Bild-KI umwandelt.
Er analysiert zum Beispiel:
Begriffe
Zusammenhänge
Stimmungen
Bildbeschreibungen
Gewichtungen im Prompt
Erst danach kann das eigentliche Bildmodell daraus ein Bild erzeugen.
Vereinfacht:
Text Encoder = versteht den Prompt
UNet = erzeugt daraus das Bild
Unterschiedliche Text Encoder beeinflussen oft stark:
Prompt-Treue
Stilverständnis
Sprachverständnis
komplexe Szenen
Umgang mit natürlicher Sprache
Gerade moderne Modelle wie Flux nutzen deutlich leistungsfähigere Text Encoder als ältere Stable-Diffusion-Versionen.
Der Nachteil:
Wenn der Text Encoder schlecht abgestimmt ist, versteht die KI zwar einzelne Wörter, aber nicht die eigentliche Bildidee.
Kurz gesagt:
Der Text Encoder übersetzt den Prompt in eine Form, die das KI-Modell überhaupt erst „verarbeiten“ kann.