Hardware
Mac mini für lokale KI: Welche Konfiguration reicht für Llama 3.3?
Der Mac mini ist 2025/26 der überraschende Star der lokalen KI-Szene: kompakt, leise, energieeffizient – und mit dem M4-Chip plus Apples Unified Memory plötzlich erstaunlich gut darin, große Sprachmodelle direkt auf deinem Schreibtisch laufen zu lassen. Aber welche Konfiguration ist sinnvoll für Llama 3.3, welche reicht für Mistral, und wo wird es eng? Wir haben es im Alltagsbetrieb getestet.
Warum überhaupt ein Mac mini für KI?
Bis vor Kurzem war die Antwort auf „lokale KI" eine sperrige Workstation mit einer dicken NVIDIA-Grafikkarte für mehrere tausend Euro. Apple hat das geändert: Mit der M-Serie ist Grafikspeicher und Hauptspeicher derselbe physische Speicher (Unified Memory). Ein Mac mini mit 32 GB RAM hat damit 32 GB, die als GPU-Speicher nutzbar sind – etwas, wofür man bei NVIDIA aktuell mehr als 5.000 € auf den Tisch legen muss.
Für lokale LLMs ist Speicherbandbreite alles: Je mehr RAM und je höher die Bandbreite, desto größere Modelle laufen mit akzeptabler Geschwindigkeit. Genau hier glänzt der M4 (und noch deutlicher der M4 Pro / Max).
Welche lokalen Modelle gibt es 2026 wirklich?
Die wichtigsten Open-Source-Familien, die im Alltag funktionieren:
- Llama 3.3 (8B und 70B) – Metas Allrounder, besonders gut für Schreibarbeit und Reasoning.
- Mistral / Mistral-Large – stark im europäischen Sprachraum, gutes Deutsch.
- Qwen 2.5 (7B/14B/32B/72B) – Alibabas Open-Source, aktuell besonders stark bei Code und Reasoning.
- Phi-4 – Microsofts kompakter Stern, viel Leistung in kleinem Modellumfang.
- Gemma 2/3 – Googles Open-Modelle, gut für leichte Setups.
Wie viel Speicher brauchst du pro Modell?
Faustregel: Ein Modell braucht etwa so viel RAM wie es Parameter-Milliarden hat – multipliziert mit der Quantisierungs-Stufe in Bit. Eine 4-Bit-Quantisierung halbiert den Bedarf gegenüber 8-Bit; 8-Bit halbiert ihn gegenüber 16-Bit (BF16/FP16). Plus etwa 2–4 GB Overhead fürs Betriebssystem und den Modell-Server selbst.
| Modell | 4-Bit RAM | 8-Bit RAM | Empfehlung |
|---|---|---|---|
| Llama 3.3 8B | ≈ 6 GB | ≈ 10 GB | läuft auf 16 GB Mac mini gut |
| Mistral 7B | ≈ 5 GB | ≈ 9 GB | läuft auf 16 GB Mac mini gut |
| Qwen 2.5 14B | ≈ 10 GB | ≈ 18 GB | braucht 24 GB+ |
| Qwen 2.5 32B | ≈ 22 GB | ≈ 40 GB | braucht 32 GB+ |
| Llama 3.3 70B | ≈ 45 GB | ≈ 80 GB | braucht 48 GB+ (M4 Pro) |
Welcher Mac mini ist 2026 sinnvoll?
M4 (Standard-Chip)
10-Core CPU + 10-Core GPU, in der CTO-Konfiguration mit 24 oder 32 GB Unified Memory. Bandbreite: 120 GB/s. Reicht souverän für 7B- und 8B-Modelle bei 4-Bit – also Llama 3.3 8B, Mistral 7B, Phi-4 usw. Auch ein 14B-Modell läuft, ist aber spürbar langsamer.
M4 Pro
12-Core CPU + 16- oder 20-Core GPU, mit 24/48/64 GB. Bandbreite: 273 GB/s – fast 2,3× schneller. Hier wird es interessant: ein Llama 3.3 70B in 4-Bit-Quantisierung passt in den 48-GB-RAM und läuft mit etwa 6–9 Tokens pro Sekunde. Das ist langsam genug, dass man es bemerkt, aber schnell genug für seriöse Arbeit.
M4 Max (im Mac Studio)
Nicht im Mac mini, aber falls du wirklich große Modelle willst: ein M4 Max mit 128 GB Unified Memory und 546 GB/s Bandbreite ist die Heim-Workstation für Llama 3.3 70B in 8-Bit oder für mehrere parallele Nutzer.
Konkrete Empfehlung nach Use-Case
Solo-Nutzer / Einsteiger / Privat
Mac mini M4 mit 32 GB / 512 GB SSD. Reicht komfortabel für 7B–14B-Modelle, eine einzelne Chat-Session, lokale Embeddings und kleinere Whisper-Setups. Liegt um die 1.500–1.700 €.
Kleine Praxis / Kanzlei / 2–5 Nutzer
Mac mini M4 Pro mit 48 GB / 1 TB SSD. 14B–32B Modelle laufen flüssig, 70B-Modelle sind möglich. Praxis-typisch 2–4 parallele Chat-Sessions. Etwa 2.500–3.000 €.
KMU / 5–10+ Nutzer
Mac Studio M4 Max mit 64–128 GB / 1–2 TB SSD. Größere Modelle plus parallele Sessions, optional dedizierte Vision-Models. Ab ca. 4.500 € aufwärts.
Tipp zur SSD-Größe
Performance: Was bedeutet „läuft" konkret?
Lokale KI-Geschwindigkeit misst man in Tokens pro Sekunde– ein Token ist grob ein halbes Wort. Was Menschen als „flüssig lesbar" empfinden, liegt bei etwa 20 Tokens/s. ChatGPT in der Cloud läuft typisch zwischen 40 und 80 Tokens/s.
Auf einem Mac mini M4 (32 GB) erreichen wir im Alltag:
- Llama 3.3 8B (4-Bit): 35–50 Tokens/s – fühlt sich schneller an als ChatGPT.
- Mistral 7B (4-Bit): 40–55 Tokens/s.
- Qwen 2.5 14B (4-Bit): 20–28 Tokens/s – noch sehr gut nutzbar.
- Qwen 2.5 32B (4-Bit): 9–13 Tokens/s – spürbar langsamer, aber für lange Tasks (Zusammenfassung, Recherche) ok.
Auf einem M4 Pro (48 GB) etwa:
- Llama 3.3 70B (4-Bit): 6–9 Tokens/s – für seriöse Arbeit gut nutzbar, nicht für Realtime-Chat.
- Qwen 2.5 32B (8-Bit): 12–16 Tokens/s.
Strom, Lautstärke, Standby
Ein laufender M4-Mac-mini zieht im Idle etwa 5–7 Watt, unter Vollast 60–80 Watt. Das ist 1/10 bis 1/15 einer vergleichbaren NVIDIA-Workstation. Bei 365-Tage-Betrieb mit gemischter Last landest du bei etwa 60–90 kWh pro Jahr – also ca. 20–30 € Strom.
Lautstärke: passiv kühl im Idle, leise hörbar unter Last (28–32 dB). Steht problemlos auf dem Schreibtisch.
Software-Stack 2026
Drei verbreitete Wege, lokale Modelle zu betreiben:
- Ollama – die einfachste Variante. Ein Kommando, das Modell lädt sich runter, läuft. Open-Source, läuft als kleiner Hintergrund-Service.
- LM Studio – grafische Oberfläche, gut für Einsteiger, integrierter Modell-Browser.
- llama.cpp direkt – maximal performant, aber Konfigurations-Overhead. Für Profis.
Als Chat-Oberfläche im Browser sind Open WebUI und Anything LLM verbreitet – beide bieten eine ChatGPT-artige UX und können mehrere Modelle parallel anbinden. So bekommen deine Mitarbeiter eine vertraute Eingabemaske, während im Hintergrund das lokale Modell rechnet.
Schlüsselfertige Variante
Lokale KI vs. Cloud-Abo: Wann lohnt es sich?
Eine grobe Wirtschaftlichkeits-Rechnung: Ein ChatGPT-Plus-Account kostet ca. 20 € / Monat / Nutzer. Bei einem 5er-Team über 3 Jahre sind das etwa 3.600 € – fortlaufend. Eine Mac mini M4 Pro Workstation mit 48 GB kostet einmalig 2.500–3.000 €, kann von beliebig vielen Nutzern im Haus genutzt werden, und der Strom ist vernachlässigbar. Wirtschaftlich kippt es bei mehreren Nutzern fast immer zugunsten der lokalen Variante – und das, bevor der Datenschutz-Faktor überhaupt mitgerechnet ist.
Fazit
2026 ist der Mac mini die wirtschaftlich vernünftigste Plattform für lokale KI im Büro – kompakt, leise, energieeffizient und leistungsstark genug für die Modelle, die im Alltag wirklich helfen. Welche Konfiguration die richtige ist, hängt vom Use-Case ab: 32 GB für Einzelnutzer, 48 GB für kleine Teams, M4 Max für ernsthafte Last. Aber selbst die Einsteiger-Variante reicht für 80 % aller typischen Büro-Use-Cases – und das ohne jeden monatlichen Abo-Betrag.