Lokale KI installieren ohne Cloud: Schritt-für-Schritt mit Ollama, LM Studio und GPT4All. Plus Modell- und Hardware-Wahl für den Mittelstand 2026.

Jannis Gerlinger
Mit KI erstelltLokale KI installierst du in sechs Schritten: Tool auswählen, Tool installieren, ein Modell laden, die ersten Prompts testen, die KI mit deinen eigenen Daten verbinden und das Setup absichern. Auf einem aktuellen Bürorechner bist du in unter einer Stunde startklar. Die komplette Software ist kostenlos, alle Daten bleiben im Haus.
Diese Anleitung zeigt dir den praktischen Weg, ohne Vorwissen vorauszusetzen. Sie richtet sich an Geschäftsführer und IT-Verantwortliche im Mittelstand. Du setzt lokale KI selbst auf oder willst den Aufwand realistisch einschätzen. Wenn du zuerst die strategische Frage klären willst, ob sich lokale KI gegenüber der Cloud lohnt, hilft der Leitfaden zu lokaler KI im Mittelstand.

Lokale KI ist ein KI-System, das komplett auf den eigenen Geräten eines Unternehmens läuft, ohne Daten an externe Cloud-Dienste zu senden. Statt eine Anfrage an einen Anbieter wie OpenAI zu schicken, verarbeitet ein Programm auf deinem Rechner die Anfrage selbst. Du nutzt dafür freie Modelle wie Llama, Qwen oder Mistral, die als Open-Source-KI frei verfügbar sind.
Der Unterschied zur Cloud ist einfach erklärt. Cloud-KI startet in Minuten ohne eigene Hardware, lokale KI hält alle Daten im Haus und erfüllt die DSGVO ohne Auftragsverarbeitung. Bei lokaler KI verlässt kein Dokument, keine Kundenakte und kein Prompt dein Netzwerk. Genau das ist für viele Mittelständler der entscheidende Punkt.
Der Datenschutz ist 2026 das stärkste Argument für den lokalen Weg. Ich arbeite seit knapp 20 Jahren in der Digitalbranche, heute mit Fokus auf KI, und sehe es immer wieder: Die Wahl zwischen Cloud und lokal entscheidet über den Datenschutz. Laut Bitkom (2025) nennt fast die Hälfte der Unternehmen genau hier die größten Bedenken beim KI-Einsatz.
der Unternehmen beklagen die hohen Anforderungen an den Datenschutz beim KI-Einsatz
Quelle: Bitkom, 2025
haben Angst, dass Daten in falsche Hände geraten
Quelle: Bitkom, 2025
der Unternehmen in Deutschland nutzen bereits KI
Quelle: Bitkom, Sept 2025
Lokale KI nimmt beiden Bedenken die Grundlage: Ohne Datenabfluss und ohne externe Verarbeitung entfällt das Risiko. Die Technik dahinter ist ein LLM, ein großes Sprachmodell, das auf deiner Hardware rechnet. Diese Form der Bereitstellung gehört zur Kategorie On-Premise, also der Betrieb von Software auf eigenen Systemen statt in fremden Rechenzentren.
Bevor du loslegst, prüfst du drei Dinge: genug Arbeitsspeicher, eine geeignete Grafikkarte und etwas freien Festplattenplatz. Lokale KI braucht vor allem schnellen Speicher, weil das Modell komplett geladen werden muss.
Der wichtigste Wert ist der Grafikspeicher, kurz VRAM. Als Faustregel gilt: rund 0,7 GB VRAM pro Milliarde Parameter bei gängiger Quantisierung. Ein Modell mit 8 Milliarden Parametern braucht so etwa 6 bis 7 GB, ein 7B-Modell rund 4 bis 6 GB. Quantisierung verkleinert das Modell, indem sie die Zahlen im Modell gröber speichert, fast ohne Qualitätsverlust.
Eine wichtige Entwarnung: Es muss nicht der teure Server sein. Eine einzelne moderne Grafikkarte wie eine NVIDIA RTX 5090 mit 32 GB VRAM (Stand Mitte 2026 ab rund 2.500 Euro, je nach Verfügbarkeit auch mehr) bewältigt bereits anspruchsvolle Modelle. Wer Apple bevorzugt, betreibt selbst 70B-Modelle auf einem MacBook Pro, wie der Beitrag zum Apple M5 für lokale KI zeigt. Und für erste Tests reicht zur Not der Prozessor allein, dann antwortet die KI eben langsamer.

Der folgende Ablauf führt dich vom leeren Rechner zur funktionierenden KI. Jeder Schritt baut auf dem vorherigen auf. Plane für den ersten Durchlauf etwa eine Stunde ein.
Entscheide zwischen LM Studio (grafisch, für Einsteiger), Ollama (Terminal, für Entwickler und Server) oder GPT4All (sehr einfach, läuft auch nur auf dem Prozessor).
Lade das Programm von der offiziellen Seite und installiere es wie jede andere Software. Ollama richtet sich als Hintergrunddienst ein, LM Studio und GPT4All starten als Fenster-Anwendung.
Wähle ein Modell aus dem integrierten Katalog, etwa Qwen3 8B. Das Tool lädt mehrere Gigabyte herunter. Bei Ollama genügt ein Befehl wie ollama run qwen3.
Stelle der KI konkrete Aufgaben aus deinem Alltag: eine E-Mail zusammenfassen, einen Text umformulieren, eine Tabelle erklären. So prüfst du Qualität und Tempo.
Aktiviere die Dokumenten-Funktion (RAG), damit die KI Fragen anhand deiner echten Firmendokumente beantwortet. GPT4All bringt das mit, für mehr nutzt du AnythingLLM oder Open WebUI.
Lege fest, wer Zugriff hat, schalte unnötige Telemetrie ab und dokumentiere das System für deinen Datenschutzbeauftragten.
Die ersten drei Schritte bringen dich zu einer KI, mit der du chatten kannst. Mit LM Studio sieht das so aus: Du installierst das Programm, klickst auf die integrierte Modellsuche, lädst Qwen3 8B und beginnst im Chat-Fenster. Kein Terminal, kein Code.
Mit Ollama läuft es über die Kommandozeile. Nach der Installation tippst du ollama run qwen3 und das Tool lädt das Modell und startet den Chat. Ollama läuft danach als Dienst im Hintergrund und bietet eine Schnittstelle, die mit der OpenAI-API kompatibel ist. Das ist der Grund, warum Entwickler Ollama bevorzugen: Bestehende Anwendungen lassen sich oft mit minimalem Aufwand auf das lokale Modell umstellen.

Nach den ersten Prompts trennt sich die Spielerei vom echten Nutzen. Den größten Hebel bringt Schritt 5, die Verbindung mit deinen eigenen Daten. Genau dafür gibt es RAG, ein Verfahren, das ein Sprachmodell mit einer Vektor-Datenbank deiner Dokumente verbindet. Die KI sucht dann zuerst in deinen Unterlagen und antwortet auf dieser Basis, statt allgemein zu raten.
Ein Beispiel: Stell dir vor, du lädst eure Angebotsvorlagen, Preislisten und das Handbuch in das System. Danach beantwortet die lokale KI Fragen wie "Welche Garantie geben wir auf Bauteil X?" mit der korrekten Stelle aus deinem Handbuch. GPT4All bringt eine einfache Version dieser Funktion bereits mit. Für mehr Nutzer und Komfort setzt du Werkzeuge wie AnythingLLM oder Open WebUI auf Ollama auf.
Schritt 6 sichert den Betrieb ab. Lege fest, wer das System nutzen darf, und schalte optionale Telemetrie ab. Bei lokaler KI bleibt der Datenschutz nur dann lückenlos, wenn auch Zugriffe und Protokolle sauber geregelt sind.
Du willst lokale KI nicht nur testen, sondern sauber im Unternehmen verankern? In einer kostenlosen Erstberatung klären wir, welches Tool, welches Modell und welche Hardware zu deinen Anforderungen passen und wie du DSGVO-sicher startest.
Drei Werkzeuge dominieren 2026 die lokale KI im Mittelstand. Sie erreichen dasselbe Ziel auf unterschiedlichen Wegen. Die Wahl hängt davon ab, ob du eine grafische Oberfläche willst, eine Schnittstelle für eigene Anwendungen brauchst oder maximale Einfachheit suchst.
Für die meisten Mittelständler gilt eine klare Empfehlung. Ohne Terminal startest du am besten mit LM Studio. Für ein lokales KI-System mit mehreren Nutzern oder eigener Software ist Ollama die richtige Wahl. GPT4All passt, wenn ein einzelner Mitarbeiter auf einem Notebook ohne starke Grafikkarte schnell etwas ausprobieren will.
Ein Hinweis zum Datenschutz: Bei der Inferenz, also der eigentlichen Verarbeitung, senden alle drei Werkzeuge keine Inhalte nach außen. Unterschiede gibt es bei der Telemetrie des Programms selbst. Ollama ist quelloffen und sammelt keine Nutzungsdaten, LM Studio ist closed source und hat eine anonyme Analyse standardmäßig aktiviert. Diese Analyse lässt sich in den Einstellungen abschalten.
Das Modell entscheidet über Qualität und Tempo. 2026 steht eine ausgereifte Auswahl bereit, die von der 8-GB-Grafikkarte bis zur Workstation alles bedient. Vier Modellfamilien sind für den deutschen Mittelstand besonders relevant, weil sie Deutsch beherrschen und frei verfügbar sind.
Für den Start empfehle ich ein etabliertes, gut unterstütztes Modell wie Qwen3 in der 8B- oder 14B-Variante zusammen mit Ollama oder LM Studio. Diese Kombination läuft auf Mittelklasse-Hardware, spricht Deutsch und deckt fast alle Büroaufgaben ab. Wer lange Verträge oder Handbücher am Stück verarbeiten will, greift zu Llama 4 Scout wegen des großen Kontextfensters. Für anspruchsvolle Analyse- und Reasoning-Aufgaben lohnt sich ein Reasoning-Modell wie DeepSeek R1, sofern genug Speicher vorhanden ist.
Die Modell-Landschaft entwickelt sich schnell. Im Lauf von 2026 sind neuere Versionen wie Qwen3.5, Gemma 4 und DeepSeek V3 dazugekommen. Prüfe vor dem Download im Katalog deines Tools, welche Version gerade aktuell ist. Für den Einstieg zählt weniger die neueste Nummer als ein Modell, das stabil auf deiner Hardware läuft.
Die Modellgröße steuert direkt den Speicherbedarf. Ein 8B-Modell läuft auf einer einzelnen 8-GB-Grafikkarte, ein 70B-Modell verlangt eine starke GPU oder einen Mac mit viel Unified Memory. Im Zweifel startest du klein und wechselst später auf ein größeres Modell, wenn die Qualität nicht reicht.
Lokale KI entlastet dein Team bei wiederkehrender Schreib- und Sucharbeit, ohne dass sensible Daten das Haus verlassen. Der Wert steckt nicht in einer einzelnen Funktion, sondern in der Summe der Stunden, die zurück ins Tagesgeschäft fließen. Drei Einsatzfelder bringen meist den schnellsten Nutzen.
Der gemeinsame Nenner ist der Datenschutz. Sobald personenbezogene oder geheime Daten im Spiel sind, ist der lokale Weg dem Cloud-Weg überlegen. Für unkritische Aufgaben wie allgemeine Recherche bleibt die Cloud eine bequeme Ergänzung. Eine Hybrid-Strategie kombiniert daher beides, abhängig von der Sensibilität der Daten.
Ein realistischer Einstieg beginnt mit einem einzigen Anwendungsfall. Du wählst den Prozess mit dem höchsten manuellen Aufwand, richtest lokale KI dafür ein und misst die gesparte Zeit. Erst wenn dieser erste Fall trägt, erweiterst du auf weitere Aufgaben. So bleibt das Projekt überschaubar und der Nutzen von Anfang an sichtbar.
Lokale KI ist stark, aber kein Allheilmittel. Drei Grenzen solltest du kennen, bevor du zu viel erwartest. Wer sie von Anfang an mitdenkt, plant entspannt und realistisch.
Erstens die Hardware-Grenze. Die größten und klügsten Modelle, vergleichbar mit den besten Cloud-Diensten, brauchen Hardware, die schnell fünfstellig kostet. Auf einem normalen Notebook läuft nur die kleinere Liga. Für reine Recherche und Standard-Texte ohne sensible Daten bleibt Cloud-KI oft günstiger und bequemer. Die ehrliche Abwägung zwischen beiden Wegen steht im Leitfaden zu lokaler KI im Mittelstand.
Zweitens der Wartungsaufwand. Lokale KI bedeutet, dass du Updates, Sicherung und Zugriffsrechte selbst verantwortest. Bei einem einzelnen Nutzer ist das überschaubar, bei einem Team braucht es eine zuständige Person.
Lade Modelle und Tools nur von offiziellen Quellen herunter, etwa der Ollama-Website oder von Hugging Face. Modelle aus unbekannten Quellen können manipuliert sein. Prüfe bei sensiblen Setups, ob ein Modell wirklich offline arbeitet, indem du die Netzwerkverbindung testweise trennst.
Drittens die Erwartung an die Antwortqualität. Ein lokales 8B-Modell ist nützlich, aber nicht so leistungsfähig wie die größten Cloud-Modelle. Für viele Büroaufgaben reicht das völlig. Für komplexe juristische oder strategische Analysen merkst du den Unterschied. Hier hilft die Hybrid-Strategie: lokal, wo Daten sensibel sind, Cloud, wo maximale Qualität zählt und die Daten unkritisch sind.
Wer diese drei Grenzen kennt, startet mit realistischen Erwartungen. Ein pragmatischer Einstieg ist ein kleines lokales Modell für den Datenschutz-kritischen Teil, das du Schritt für Schritt erweiterst.
Unsicher, ob lokale KI zu deinen Prozessen passt? In einer kostenlosen Erstberatung schauen wir gemeinsam auf deine Anforderungen, deine Daten und deine Hardware und finden den pragmatischen Weg, ohne dass du dich vorher festlegen musst.
Jannis Gerlinger ist Geschäftsführer der JANGER GmbH. Seit über 15 Jahren entwickelt er digitale Lösungen, erst im UX/UI Design und E-Commerce, heute mit dem Fokus auf sichere KI-Systeme für den Mittelstand. Mit seiner TÜV-Zertifizierung in Verkaufspsychologie verbindet er technisches Know-how mit einem tiefen Verständnis für Geschäftsprozesse.
Die neuesten Praxis-Tipps zur KI-Einführung direkt in dein Postfach. Kein Spam, jederzeit abbestellbar.

KI-Telefonassistent für KMU: So beantwortet künstliche Intelligenz Anrufe rund um die Uhr, bucht Termine und qualifiziert Anfragen. Praxisnah erklärt mit Anwendungsfällen, Vergleich und Checkliste.
Weiterlesen
Echtzeit-Dashboards für KMUs: Lagerbestände, Sensordaten und Verkehr auf einen Blick. Mit Grafana, Retool und datenschutzfreundlichen Lösungen.
Weiterlesen
Computer Use macht KI vom Chatbot zum digitalen Sachbearbeiter. GPT-5.4 übertrifft Menschen bei Desktop-Aufgaben. So profitieren KMUs davon.
WeiterlesenIn 15 Minuten findest du heraus, wo KI in deinem Betrieb den größten Hebel hat. Kostenlos, unverbindlich.