Dataset oder Training Data bezeichnet die Bilder und Daten, mit denen eine KI trainiert wird.
Diese Trainingsdaten bestimmen maßgeblich:
was die KI erkennt
welche Stile sie kennt
wie Gesichter aussehen
welche Bildqualität möglich ist
wie gut Prompts verstanden werden
Ein Dataset kann zum Beispiel enthalten:
Fotos
Illustrationen
Anime-Bilder
Tags und Beschreibungen
Captions
Metadaten
Je besser und sauberer die Trainingsdaten sind, desto besser arbeitet meist auch das Modell.
Schlechte Trainingsdaten führen häufig zu:
Anatomiefehlern
generischen Gesichtern
schlechter Prompt-Treue
Artefakten
typischem „AI-Matsch“
Große Modelle wie Stable Diffusion oder Flux wurden mit Millionen bis Milliarden Bildern trainiert.
Kurz gesagt:
Das Dataset sind die Trainingsdaten einer KI und damit die Grundlage dessen, was ein Modell überhaupt lernen und erzeugen kann.