Wie funktionieren KI-Benchmarks? - Einfach erklärt

Wie funktionieren KI-Benchmarks? - Einfach erklärt

Egal ob von OpenAI, Google oder aus der Forschung und Wissenschaft, jeden Tag gibt es unzählige Meldungen über die Veröffentlichung neuer KI-Modelle. Meistens wird damit geworben, dass das neue KI-Modell viel performanter als sein Vorgänger ist. Aber wie kann man überhaupt die Leistung eines KI-Modells messen und mit anderen KI-Modellen vergleichen? Die Antwort: KI-Benchmarks.

Was sind KI-Benchmarks?

KI-Benchmarks sind standardisierte Tests, die darauf abzielen, die Leistungsfähigkeit und Effizienz von KI-Systemen zu messen. Ein Benchmark kann sich auf einzelne oder kombinierte Leistungsaspekte der KI beziehen. Benchmarks erzeugen eine objektive Bewertungsgrundlage, um verschiedene KI-Modelle objektiv miteinander vergleichen zu können.

Diese Erkenntnisse helfen Softwareentwicklern dabei, das geeignete KI-Modell für ihren Anwendungsfall zu identifizieren. Weiterhin nutzen Forscher und KI-Entwickler die Benchmarks auch, um Verbesserungspotenzial für ihr KI-Modell zu identifizieren und Fehlerquellen zu erkennen. Durch die möglichst objektiven Bewertungsmethoden lässt sich einschätzen, in welchen Bereichen die KI besonders gut ist oder eher schwächelt.

Die meisten KI- beziehungsweise AI-Benchmarks stellen standardisierte Testdaten oder -aufgaben bereit. Gegen diese Aufgaben wird die KI geprüft. Alle KI-Modelle müssen sich also einer ähnlichen Herausforderung stellen. Nur so ist ein objektiver Vergleich möglich.

Beispiel

Google Gemini Benchmark ResultsErgebnisse des Performance Vergleichs zwischen Googles KI-Modell Gemini Ultra und GPT-4 von OpenAI (Quelle: blog.Google)

Wie funktionieren KI-Benchmarks?

Je nach getestetem Aspekt werden unterschiedliche Daten und Aufgaben dem KI-Modell übergeben und das Ergebnis gemessen. Getestet werden kann unter anderem die Genauigkeit der Objekt- und Texterkennung, die Beantwortung von Fragen über verschiedene Fachthemen, die Qualität der Codegenerierung und die Fähigkeit zum logischen Denken. Als Testdaten erhält die KI also beispielsweise Bilder, Audiodateien oder verschiedene Fragen in Textform. Dabei ist natürlich wichtig, um welche Art der KI es sich handelt. Ein Large Language Modell (LLM), also eine sprach- und textbasierte KI, wird anders bewertet als eine KI zur reinen Bilderkennung. 

Beispiele für bekannte Benchmarks und ihr Testgebiet findest du weiter unten im Artikel.

Anmerkung: KI-Entwicklung ist ein komplexes Fachgebiet. Dieser Artikel vereinfacht zum besseren Verständnis einige Themen.

Wie wird die Performance in KI-Benchmarks gemessen und bewertet?

Meistens wird das Benchmarkergebnis in einer Punktzahl oder einem Prozentsatz von 0 bis 100 angegeben. Dabei wird gezählt, wie viel Prozent der gestellten Fragen korrekt beantwortet wurden. Bei einer Punktzahl von 81 hat die KI beispielsweise 81 Prozent der gestellten Fragen korrekt beantwortet. Die Testaufgaben enthalten neben der Frage oder Problemstellung auch immer die erwartete Antwort. Was als richtige oder falsche Antwort zählt, wird also individuell je Benchmark festgelegt.

Zusätzlich lassen sich zu einigen Benchmarks, besonders solche zu Muster- oder Fallerkennung, noch weitere statistische Kennzahlen berechnen. Beispielsweise die sogenannte Sensitivität oder Genauigkeit. Mehr Informationen zu diesen Fachbegriffen findest du hier.

Infobox
Leaderboards - Wo finde ich KI-Benchmarkergebnisse?
Im Internet findest du verschiedene Websites mit Top-Listen und KI-Modellvergleichen. In der Open Source Community besonders beliebt ist das Open LLM Leaderboard von Huggingface.co, einer Plattform für KI-Modelle und Werkzeuge für die KI-Entwicklung.

Was sind die wichtigsten KI-Benchmarks?

Beinahe täglich werden neue Benchmarks und Testdaten veröffentlicht. Mit den steigenden Anforderungen an neue KI-Modelle werden mit der Zeit auch immer umfangreichere und komplexere Testszenarien benötigt. Die folgende Auflistung ist daher nur eine kurze Sammlung von aktuell häufig verwendeten KI-Benchmarks.

HellaSwag

Dieser Benchmark, mit seinem besonders ausgefallenen Namen, bewertet das natürliche Sprachverständnis und die Fähigkeit, logische, dem gesunden Menschenverstand entsprechende Schlussfolgerungen zu ziehen.

Das KI-Modell muss dafür einen Satz mit einer aus vier vorgegebenen Möglichkeiten vervollständigen. Die richtige Antwortmöglichkeit ist für einen Menschen einfach aus dem Satzkontext ableitbar. Für eine KI ist diese Art des logischen Denkens aber eine Herausforderung.

Der Name von HellaSwag ist übrigens ein englisches Akronym und steht für „Harder Endings, Longer Contexts, and Low-shot Activities for Situations With Adversarial Generations“.

GSM8K

Bei GSM8K handelt es sich um einen Test, der die Fähigkeit zum Lösen von sprachbasierten mathematischen Problemen überprüft. Die Aufgaben orientieren sich dabei am Mathematik-Grundschulniveau. Um das Problem zu lösen, muss die KI immer 2 bis 8 Zwischenschritte berücksichtigen können. Dadurch wird sowohl das Mathematikverständnis als auch die Fähigkeit zum logischen Kombinieren überprüft.

Beispiel

GSM8K Beispiel

Quelle: GSM8K Data Set auf Huggingface.co

MMLU

Bei MMLU handelt es sich um einen Multiple-Choice-Test zu verschiedenen Wissensthemen. Damit wird praktisch das Allgemein- und Spezialwissen der KI überprüft.

Die KI muss aus vier Antwortmöglichkeiten, bei Fragen aus über 57 Themengebieten, die richtige auswählen. Die Themen sind breit gefächert und reichen von Algebra bis zu Rechtsfragen oder Philosophie. Dieser Benchmark ähnelt der Art und Weise, wie wir das Allgemeinwissen eines Menschen beurteilen würden.

Beispiel

MMLU Beispiel

Quelle: MMLU Data Set auf Huggingface.co

Human Eval

Der HumanEval Benchmark testet die Fähigkeit zur Codegenerierung des KI-Modells. Dabei umfasst der Benchmark 164 handgeschriebene Programmieraufgaben, welche die KI lösen soll. Über Softwaretests wird der vom KI-Modell generierte Code dann auf seine Funktionsfähigkeit geprüft. Die Aufgaben des Benchmarks ähneln den Fragestellungen für Softwareinterviews. Dabei handelt es sich um Aufgaben, die menschlichen Softwareentwicklern gerne im Rahmen von Bewerbungsprozessen gestellt werden, um die Programmierkenntnisse zu testen.

VQAv2

VQAv2 ist ein Benchmark zur Bewertung von Bilderkennung und Bildverständnis. Die KI muss dabei zu einem Bild passende Fragen beantworten. Dafür ist es nötig, dass die KI den Inhalt des Bilds akkurat erkennen und logisch einordnen kann. Der VQAv2-Testdatensatz besteht aus über 250.000 Bildern. 

Beipspiel VQAv2 Benchmark

Sind KI-Benchmarkergebnisse wichtig?

Solltest du also immer auf das KI-Modell setzen, welches aktuell das beste Benchmarkergebnis hat? Die Antwort ist, wie so oft: Es kommt darauf an.

Selbst ältere Modelle wie GPT-3 sind leistungsstark genug, um einfache Fragen zu beantworten oder Informationen aus einem Text umzuwandeln. Der Unterschied ist eher bei spezialisierten Aufgaben spürbar. Wenn ich eine KI als Unterstützung zum Programmieren benutzen möchte, bietet es sich an, auf ein Modell zu setzen, das in passenden Benchmarks, wie Human Eval, am besten abschneidet. Das erhöht die Chance, dass der generierte Programmcode funktioniert und qualitativ gut geschrieben ist.

Aber es spielen noch weitere Faktoren eine Rolle, beispielsweise der Preis, das Lizenzmodell, Verfügbarkeit, Modellgröße, die Aktualität der Trainingsdaten und vieles mehr. Das Benchmarkergebnis eines KI-Modells ist eher als ein Anhaltspunkt zu sehen. Als User solltest du aber immer verschiedene Aspekte vergleichen.

Toby Peschke
Toby Peschke
Toby Peschke hilft Unternehmen und Selbständigen die Digitalisierung zu meistern. Als Berater für Prozessmanagement und Digitalisierung teilt er auf Digital Onzen gerne nützliches Wissen, Methoden und Tools. Privat begeistert er sich für alles Kulinarische, praktische Ratgeberliteratur und träumt vom nächsten Urlaub in Japan.

Abonniere den Newsletter, um keine neuen Blogbeiträge zu verpassen 

Deine Daten sind sicher. Hier ist unsere Datenschutzerklärung.
©2023 Toby Peschke
DatenschutzImpressum