Quantization reduziert die Genauigkeit von KI-Modellen, damit sie weniger Speicher und Rechenleistung benötigen.
Dadurch laufen Modelle oft:
schneller
effizienter
auf schwächerer Hardware
Bekannte Formate:
FP16
BF16
FP8
INT8
Kurz gesagt:
Quantization komprimiert KI-Modelle für bessere Performance und geringeren Speicherverbrauch.