Intelligenz

Agentenqualität messen.
Wissenschaftlich.

Strukturierte Evaluierungen über mehrere Modelle durchführen. Qualität, Kosten und Geschwindigkeit vergleichen. Regressionen erkennen, bevor sie Produktion erreichen.

Zugang anfragen

SWE-BENCH VERIFIED 500 echte GitHub-Issues — Live-Evaluation

Instanzen

django__django-15648 ✓ GELÖST

sympy__sympy-21379 ✓ GELÖST

astropy__astropy-14309 ✓ GELÖST

matplotlib__matplotlib-26011 LÄUFT...

scikit-learn__scikit-19851 LÄUFT...

flask__flask-4045 IN WARTESCHLANGE

371 / 500 Instanzen

Score

SCORE

100% 75% 50% 25% 0%

74.2%

Kosten-Tracker

TOKENS VERWENDET 1.24M

BISHERIGE KOSTEN $4.82

GESCHÄTZT GESAMT ~$47.50

Modell-Durchsatz

Haiku

312 Inst

Sonnet

47 Inst

Opus

12 Inst

6 INTEGRATIONEN AKTIV

① 500 GitHub-Issues — echte SWE-bench-Instanzen parallel in die Warteschlange gestellt und gelöst

② Score steigt live — gelöste Instanzen speisen den Score-Meter in Echtzeit

③ Kosten pro Modell verfolgt — Haiku-, Sonnet- und Opus-Durchsatz-Lanes mit Live-Kosten angezeigt

Test Suites

Evaluierungsfälle mit erwartetem Verhalten definieren. Gegen jedes Modell oder jede Experten-Agenten-Konfiguration ausführen.

Side-by-Side-Vergleich

Sehen, wie verschiedene Modelle denselben Job bewältigen. Token-Nutzung, Latenz, Kosten und Ausgabequalität vergleichen.

Scoring

Strukturiertes Scoring auf einer 0–100-Skala. Pass/Fail, Qualitätsmetriken und Guardrail-Compliance pro Lauf.

Trendanalyse

Qualitätsscores über die Zeit verfolgen. Erkennen, wenn Modell-Updates Regressionen in Ihren Use Cases verursachen.

Kostenanalyse

Exakte Kosten pro Antwort für jedes Modell sehen. Fundierte Entscheidungen über Model-Routing und Budget treffen.

Geplante Evaluierungen

Evaluierungen nach Zeitplan ausführen. Benachrichtigung erhalten, wenn Scores unter Ihre Schwellenwerte fallen.

SWE-bench Verified

Test gegen den Branchen-Standard-Coding-Benchmark. Orqista integriert das offizielle Princeton Docker-Eval-Harness für Ground-Truth-Pass/Fail-Bewertung — dieselbe Methodik, die zur Bewertung frontier KI-Modelle verwendet wird.

Warm / Cold Mode

Messen, ob Skills die Agentenqualität über die Zeit verbessern. Cold Runs nutzen einen frischen Agenten; Warm Runs lassen den Agenten auf erlerntes Prozesswissen zurückgreifen. Scores vergleichen, um Verbesserung nachzuweisen.

So funktioniert die Bewertung

Jeder Evaluierungsfall definiert erwartete Verhaltenskriterien. Der Grader bewertet die LLM-Ausgabe auf einer 0-100-Skala in Korrektheit, Vollständigkeit und Guardrail-Konformität. Ergebnisse werden über die Zeit verfolgt, um Regressionen zu erkennen, bevor sie die Produktion erreichen.

Vom Datensatz zum Sieger

   Datensatz (N Fälle)
        │
        ▼
  ┌─────────────┐
  │  Grader     │──► Fast-Tier    ──┐
  │  (pro Fall) │──► Default-Tier ──┼──► Werte pro Modell + Kosten + Latenz
  └─────────────┘──► Deep-Tier    ──┘
                                       │
                                       ▼
                              Sieger / Regressions-Flag

01

Datensatz wählen

Starten Sie mit 20 echten Issues aus Ihrem Repo oder einem öffentlichen Satz wie SWE-bench Verified. Jeder Fall trägt erwartetes Verhalten — der Grader hat Ground Truth.
02

Tier-übergreifend laufen

Derselbe Datensatz läuft parallel gegen Fast, Default und Deep. Token-Zählungen, Latenz und Kosten werden pro Fall erfasst, nicht gemittelt.
03

Regressionstabelle lesen

Qualität wird 0-100 bewertet; Kosten in Mikrodollar. Das Dashboard hebt jedes Modell hervor, dessen Score gegenüber der vorherigen Baseline gesunken ist — Regressionen fallen laut auf, nicht lautlos.

Verwandte Features

Play-Werkbank Multi-Modell-Unterstützung Experten-Agenten

Benchmark-Ergebnisse für Ihre Codebasis sehen

Zugang anfragen, um Evaluierungen gegen Ihre realen Projekte durchzuführen.

Frühzugang anfragen

Agentenqualität messen.Wissenschaftlich.