Zum Hauptinhalt springen
  1. Posts/

Hardware für lokale Coding-Modelle ist noch bezahlbar. Wie lange noch?

·414 Wörter·2 min

Die jüngsten Preisanstiege bei RAM haben auch die GPU-Preise nach oben getrieben. Die einzigen Systeme, die bislang nicht im gleichen Maße betroffen sind, sind Macs und High-End GPUs (RTX 6000 Pro und aufwärts). GPUs würde ich allerdings bereits als “nicht bezahlbar” einstufen: Um Coding-Modelle mit ausreichend großen Kontextfenstern zu betreiben, wären eine bis zwei RTX 6000 Pro oder drei bis sechs RTX 5090 erforderlich.

Schauen wir uns stattdessen Macs an.

PreisBandbr.CPURAMNVMeCPUGPUModellPreis/BandbreitePreis/Speicher
2.500 EUR273 GB/sM4 Pro64 GB1 TB12C16CMac Mini9,15 EUR/GB/s39,06 EUR/GB
4.027 EUR546 GB/sM4 Max128 GB1 TB16C40CMac Studio7,14 EUR/GB/s31,43 EUR/GB
4.200 EUR800 GB/sM3 Ultra96 GB1 TB28C60CMac Studio5,52 EUR/GB/s43,75 EUR/GB
6.720 EUR800 GB/sM3 Ultra256 GB2 TB28C60CMac Studio8,40 EUR/GB/s26,25 EUR/GB
11.900 EUR800 GB/sM3 Ultra512 GB4 TB32C80CMac Studio14,87 EUR/GB/s23,24 EUR/GB

Mac Studios mit dem M3 Ultra bieten derzeit das beste Gesamtpaket. Die 96-GB-Variante ist schnell, und die RAM-Ausstattung reicht aus, um viele Allzweckmodelle mithilfe von Quantisierung auszuführen. Die 256-GB-Version ist in der Lage, Coding-Modelle mit akzeptablen Quantisierungsgraden und 64k-Kontext zu nutzen – gerade ausreichend für den Einsatz mit Coding-Agenten 1. Das 512-GB-Modell überschreitet leider die Marke von 10.000 €, was ich als “nicht mehr bezahlbar” betrachten würde.

Der Preisunterschied zwischen den 96-GB- und 256-GB-Varianten des Mac Studio liegt überraschend nahe an den aktuellen Marktpreisen für Arbeitsspeicher. Zum Vergleich: 256 GB DDR5-6000 kosten derzeit rund 3.430 €, also etwa 13,39 € pro GB. Die Preisdifferenz zwischen den 96-GB- und 256-GB-Versionen des Mac Studio sowie zwischen den 256-GB- und 512-GB-Modellen beträgt jeweils etwa 12,88 € pro GB bzw. 18,50 € pro GB. Würde Apple zu den üblichen Speicheraufschlägen zurückkehren, läge die 256-GB-Konfiguration sehr wahrscheinlich deutlich näher an 10.000 €.

Gehostete Inferenz ist günstiger und leistungsfähiger, kann aber nicht immer verwendet werden. Besonders Freelancer und kleinere Unternehmen dürfen bei Aufträgen für große Unternehmen allenfalls lokale Modelle verwenden, falls sie überhaupt eigene KI einsetzen dürfen. Der M3 Ultra, der im März 2025 vorgestellt wurde, hat zusammen mit verbesserten Modellen, Quantisierung und REAP eine Ära bezahlbarer lokaler Coding-Modelle eingeläutet. Diese Ära könnte nun ins Stocken geraten: Für 2026 werden weiter steigende RAM-Preise erwartet, und ein hohes Preisniveau dürfte bis 2027 oder sogar 2028 anhalten 2.


  1. Basierend auf Benchmark-Ergebnissen in r/LocalLLaMA ↩︎

  2. Basierend auf einer Analyse vom Dezember 2025 von wccftech ↩︎