Der Vorgang, bei dem ein trainiertes KI-Modell eine Antwort erzeugt.

Inferenz bezeichnet den Prozess, bei dem ein bereits trainiertes KI-Modell auf neue Eingaben angewendet wird, um Vorhersagen oder Antworten zu generieren. Während das Training einmalig und sehr rechenintensiv ist, geschieht die Inferenz bei jeder Nutzung, bei jeder Frage an einen Chatbot, jeder Textgenerierung, jeder Bildanalyse. Die Inferenz-Leistung wird in Tokens pro Sekunde gemessen. Moderne Cloud-Dienste erreichen 50 bis 200 Tokens pro Sekunde, lokale Systeme je nach Hardware 10 bis 100. Optimierungstechniken wie Quantisierung, Batching und Speculative Decoding verbessern die Inferenz-Geschwindigkeit stetig.
Bei der Inferenz durchläuft die Eingabe (z. B. deine Frage) die neuronalen Schichten des Modells. Jede Schicht transformiert die Daten und extrahiert zunehmend abstrakte Merkmale. Am Ende berechnet das Modell Wahrscheinlichkeiten für mögliche Ausgaben und wählt die wahrscheinlichste aus. Bei Sprachmodellen geschieht dies Token für Token: Das Modell erzeugt ein Wort, fügt es zum Kontext hinzu und erzeugt das nächste. Dieser Prozess wird durch die GPU beschleunigt, die die nötigen Matrixoperationen massiv parallelisiert. Optimierungen wie KV-Cache speichern Zwischenergebnisse und vermeiden Doppelberechnungen.
Die Inferenz-Geschwindigkeit bestimmt, wie schnell deine KI antwortet. Bei lokaler KI hängt sie von der Hardware (GPU) ab, bei Cloud-KI vom gewählten Tarif. Für Echtzeit-Anwendungen (Kundenservice-Bot) ist schnelle Inferenz entscheidend. Für Batch-Verarbeitung (Dokumentenanalyse über Nacht) ist sie weniger kritisch. Die Inferenz-Kosten machen den Großteil der laufenden KI-Ausgaben aus. Pro Anfrage an ein Cloud-Modell zahlst du typischerweise 0,001 bis 0,03 EUR. Bei tausenden Anfragen pro Tag summiert sich das. Lokale Inferenz eliminiert diese variablen Kosten, erfordert aber Investitionen in Hardware.
Jannis Gerlinger ist Geschäftsführer der JANGER GmbH. Seit über 15 Jahren entwickelt er digitale Lösungen, erst im UX/UI Design und E-Commerce, heute mit dem Fokus auf sichere KI-Systeme für den Mittelstand. Mit seiner TÜV-Zertifizierung in Verkaufspsychologie verbindet er technisches Know-how mit einem tiefen Verständnis für Geschäftsprozesse.
Die neuesten Praxis-Tipps zur KI-Einführung direkt in dein Postfach. Kein Spam, jederzeit abbestellbar.