Egal ob in der Dokumentation von OpenAI, Anthropic oder DeepSeek, KI-APIs können schnell verwirrend werden. Viele Konzepte und API-Parameter sind sowohl für Einsteiger als auch für erfahrene Entwickler nicht immer selbsterklärend. Dieser Einsteigerguide wird dir dabei helfen, die wichtigsten Grundbegriffe zu verstehen, damit du sicher mit KI-APIs umgehen kannst.
KI-Modelle wie GPT, Claude (Anthropic), LLaMA (Meta) oder DeepSeek erzeugen Antworten, indem sie Wahrscheinlichkeiten berechnen, welches Wort oder Token (eine kleine Texteinheit) als Nächstes im Textverlauf kommen könnte. Die Steuerungsparameter beeinflussen die Auswahl dieser Token und verändern so den Aufbau der Antworten. Sie ermöglichen dir, die Ausgabe des Modells gezielt zu steuern, von kreativ und vielfältig bis hin zu klar und präzise. Dadurch kannst du die Antwort der KI beeinflussen, um optimal zu deinem Anwendungsfall zu passen.
Angenommen, du möchtest automatisch eine KI-generierte Antwort auf eine eingehende E-Mail erstellen. Über einen Automatismus wird der Text jeder neuen E-Mail eines bestimmten Postfachs an die API eines KI-Anbieters gesendet. Du möchtest, dass die KI besonders kreative und ungewöhnliche Antworten schreibt. Genau dabei hilft dir die Einstellung der richtigen API-Parameter. Umgekehrt kannst du sie auch so konfigurieren, dass die KI-Antworten besonders seriös, zur Anfrage passend und gleichbleibend sind. Parameter wie Temperature oder Top-p spielen dabei eine zentrale Rolle.
Übrigens: Falls du selbst solche KI Automatisierungen wie das oben genannte Beispiel bauen möchtest, empfehle ich dir, einen Blick auf Make oder n8n zu werfen. Damit lassen sich Workflows ohne großen Programmieraufwand automatisieren.
Je nach AI-Modell und Anbieter heißen die Parameter manchmal anders oder funktionieren minimal unterschiedlich. Die grundlegenden Konzepte sind jedoch bei den meisten Large Language Models (LLMs) ähnlich. Im Folgenden lernst du die wichtigsten Parameter kennen, damit du besser abschätzen kannst, wie du das KI-Verhalten gezielt anpassen kannst. Wenn du dich also schon einmal gefragt hast: „Was ist die Temperature bei einem KI-Modell?“, wirst du in der folgenden Auflistung fündig.
Das Modell ist neben deinem Prompt (also dem Befehl für die KI) einer der grundlegendsten Parameter. Die meisten KI-Anbieter stellen über ihre APIs verschiedene Modelle bereit. Diese können sich in Funktionsumfang, Intelligenz, Preis (pro Token) und Antwortgeschwindigkeit stark unterscheiden. Wenn du beispielsweise nur eine schnelle Zusammenfassung für E-Mails brauchst, kann ein einfacheres und kostengünstigeres Modell genügen. Für anspruchsvollere Aufgaben wie Code-Generierung oder tiefgehende Analysen lohnt sich hingegen ein ausgereifteres Modell. Ein konkretes Beispiel wäre das Auswählen von „gpt-4.5“ in der OpenAI-API für eine Chat-Anfrage, in der du hochqualitative und kontextreiche Antworten erwartest. Beispielsweise bietet OpenAI zum aktuellen Zeitpunkt über 10 verschiedene LLMs in seiner API zur Auswahl.
Falls du mehr zur Auswahl des am besten geeigneten KI Modells erfahren willst, empfehle ich meinen Guide zu KI-Benchmarks.
Der Wert der Temperature-Variable legt fest, wie „kreativ“ das Modell bei der Auswahl des nächsten Wortes sein soll. Eine niedrige Temperature (etwa 0.1 bis 0.3) veranlasst die KI, eher die wahrscheinlichsten Wörter zu wählen. Das führt zu eher sachlichen und weniger überraschenden Antworten. Eine höhere Temperature (z. B. 0.7 bis 1.0) ermöglicht, teils unvorhersehbaren Text. Wenn du zum Beispiel automatisch kreative Blogartikelideen generieren willst, kann es sinnvoll sein, die Temperature etwas anzuheben. Stell dir vor, du hast den Wert auf 0.8 eingestellt und bittest die KI, einen kreativen ersten Satz für eine fiktiven Artikel zu schreiben. Du wirst wahrscheinlich eine ungewöhnlichere Formulierung erhalten als bei einer Temperature von 0.2, die oft nur den direktesten Weg wählt.
Prompt: Schreibe den ersten Satz für eine Märchengeschichte
❄️ Niedrige Temperatur: Es war einmal ein kleines Königreich, in dem die Menschen in Frieden und Wohlstand lebten → Generiert eine sehr typische, fast schon formelhafte Formulierung.
🔥 Hohe Temperatur: In der schillernden Nacht, als der Mond in funkelnden Farben erstrahlte und der Wind uralte Geheimnisse flüsterte, begann ein Märchen, das selbst die Sterne verzauberte → Generiert einen sehr kreativen und ungewöhnlichen Satz.
Der Parameter Top-p, oft auch als Nucleus Sampling bezeichnet, steuert, bis zu welcher kumulierten Wahrscheinlichkeit das Modell beim Wortvorschlag greifen darf. Wenn du Top-p auf 0.2 setzt, berücksichtigt das Modell nur die Tokens, die zusammen die obersten 20 Prozent der wahrscheinlichsten Fortsetzungen ausmachen. Das bedeutet vereinfacht ausgedrückt, dass die KI nur auf Formulierungen zurückgreift, die so in ihren Trainingsdaten relativ häufig vorkommen. Das verleiht der KI einen gewissen Spielraum, bleibt aber insgesamt relativ fokussiert auf gängige Formulierungen.
Wenn du einen Social-Media-Post generieren möchtest und nicht möchtest, dass die KI zu stark ausschweift und merkwürdige Formulierungen benutzt, könntest du Top-p einen niedrigeren Wert geben. So hältst du die Ausgaben einigermaßen abwechslungsreich, ohne dass es zu kreativ wird.
Mit Top-k begrenzt du die Auswahl des Modells auf eine bestimmte Anzahl an Wortkandidaten. Anders als Top-p, das auf Wahrscheinlichkeitswerte setzt, zielt Top-k auf eine feste Anzahl an möglichen Tokens ab. Wenn du zum Beispiel Top-k = 5 verwendest, schaut das Modell immer nur auf die 5 wahrscheinlichsten Fortsetzungen. Das führt zu einer starken Fokussierung und verhindert, dass sehr unwahrscheinliche Wörter jemals auftauchen.
Angenommen, du fragst die KI nach Produktnamens-Ideen und stellst Top-k auf 20. Das Modell kann dann lediglich aus den zwanzig am häufigsten kalkulierten Namensvorschlägen wählen. Auf diese Weise hältst du die Resultate kompakt und zugleich etwas kreativer als bei Top-k = 3, wo die KI kaum Alternativen zur Auswahl hätte.
Der Parameter Max Tokens setzt eine Obergrenze für die Länge der generierten Antwort. Wenn du nur einen kurzen Text benötigst, kannst du hier einen niedrigen Wert eingeben, zum Beispiel 50 bis 100 Token. So bricht das Modell die Ausgabe nach wenigen Sätzen ab. Erhöhst du den Wert hingegen, darf die KI längere Texte formulieren, was beispielsweise beim Erstellen längerer Blogartikel oder Dokumentationen sinnvoll ist.
In der Praxis ist der Max-Tokens-Wert auch relevant, um ggf. API-Kosten zu minimieren. Bei den meisten APIs bezahlst du einen Preis pro Token für jede Anfrage und Antwort. Das heißt, dass wenn du regelmäßig besonders lange Texte generierst, deine Kosten steigen. Max Tokens kann dabei helfen, die Kosten pro Antwort zu begrenzen.
Die Stop-Sequenz legt fest, bei welcher Zeichen- oder Wortfolge das Modell seine Generierung beenden soll. Du kannst damit verhindern, dass endlos weitergeschrieben wird oder bestimmte unerwünschte Textteile ausgegeben werden.
Wenn du als Stop-Sequenz den Wert „World“ festlegst und die KI den Satz „Hello World“ schreiben soll, stoppt die KI beim Wort „Hello“ (also vor der Stop-Sequenz). Quelle: OpenAI Help Center
Bei der Frequency Penalty bewertet das Modell, wie oft ein Wort bereits in der Antwort erschienen ist, und erschwert eine erneute Verwendung desselben Wortes. Das verhindert eintönige Formulierungen und repetitive Schleifen. Stell dir vor, du möchtest eine KI, die möglichst abwechslungsreich über ein bestimmtes Thema schreibt, ohne dass ständig dieselben Ausdrücke wiederholt werden. Wenn du merkst, dass ein Text zu viele identische Phrasen enthält, erhöhst du die Frequency Penalty.
Beispiel: Angenommen, deine KI verwendet bei einer Produktbeschreibung zu häufig die Wörter „toll“ oder „perfekt“, dann kannst du die eintönigen Wiederholungen deutlich reduzieren, indem du die Frequency Penalty anhebst.
Viele der modernen APIs und Modelle sind in der Lage, selbstständig zusätzliche KI-unabhängige Funktionen aufzurufen. Diese Funktionen helfen üblicherweise dabei, die Antwortqualität zu verbessern. Die zur Verfügung stehenden Funktionen und Tools sind stark API-spezifisch. Beispielsweise gibt es in der Response API von OpenAI folgende vordefinierte Tools: