Intelligenz

Agentenqualität messen.
Wissenschaftlich.

Strukturierte Evaluierungen über mehrere Modelle durchführen. Qualität, Kosten und Geschwindigkeit vergleichen. Regressionen erkennen, bevor sie Produktion erreichen.

Zugang anfragen

SWE-BENCH VERIFIED 500 echte GitHub-Issues — Live-Evaluation

Instanzen
django__django-15648 ✓ GELÖST
sympy__sympy-21379 ✓ GELÖST
astropy__astropy-14309 ✓ GELÖST
matplotlib__matplotlib-26011 LÄUFT...
scikit-learn__scikit-19851 LÄUFT...
flask__flask-4045 IN WARTESCHLANGE
371 / 500 Instanzen
Score

SCORE

100% 75% 50% 25% 0%

74.2%

Kosten-Tracker
TOKENS VERWENDET 1.24M
BISHERIGE KOSTEN $4.82
GESCHÄTZT GESAMT ~$47.50

Modell-Durchsatz

Haiku
312 Inst
Sonnet
47 Inst
Opus
12 Inst
6 INTEGRATIONEN AKTIV
500 GitHub-Issues — echte SWE-bench-Instanzen parallel in die Warteschlange gestellt und gelöst
Score steigt live — gelöste Instanzen speisen den Score-Meter in Echtzeit
Kosten pro Modell verfolgt — Haiku-, Sonnet- und Opus-Durchsatz-Lanes mit Live-Kosten angezeigt

Test Suites

Evaluierungsfälle mit erwartetem Verhalten definieren. Gegen jedes Modell oder jede Experten-Agenten-Konfiguration ausführen.

Side-by-Side-Vergleich

Sehen, wie verschiedene Modelle denselben Job bewältigen. Token-Nutzung, Latenz, Kosten und Ausgabequalität vergleichen.

Scoring

Strukturiertes Scoring auf einer 0–100-Skala. Pass/Fail, Qualitätsmetriken und Guardrail-Compliance pro Lauf.

Trendanalyse

Qualitätsscores über die Zeit verfolgen. Erkennen, wenn Modell-Updates Regressionen in Ihren Use Cases verursachen.

Kostenanalyse

Exakte Kosten pro Antwort für jedes Modell sehen. Fundierte Entscheidungen über Model-Routing und Budget treffen.

Geplante Evaluierungen

Evaluierungen nach Zeitplan ausführen. Benachrichtigung erhalten, wenn Scores unter Ihre Schwellenwerte fallen.

SWE-bench Verified

Test gegen den Branchen-Standard-Coding-Benchmark. Orqista integriert das offizielle Princeton Docker-Eval-Harness für Ground-Truth-Pass/Fail-Bewertung — dieselbe Methodik, die zur Bewertung frontier KI-Modelle verwendet wird.

Warm / Cold Mode

Messen, ob Skills die Agentenqualität über die Zeit verbessern. Cold Runs nutzen einen frischen Agenten; Warm Runs lassen den Agenten auf erlerntes Prozesswissen zurückgreifen. Scores vergleichen, um Verbesserung nachzuweisen.

So funktioniert die Bewertung

Jeder Evaluierungsfall definiert erwartete Verhaltenskriterien. Der Grader bewertet die LLM-Ausgabe auf einer 0-100-Skala in Korrektheit, Vollständigkeit und Guardrail-Konformität. Ergebnisse werden über die Zeit verfolgt, um Regressionen zu erkennen, bevor sie die Produktion erreichen.

Vom Datensatz zum Sieger

   Datensatz (N Fälle)
        │
        ▼
  ┌─────────────┐
  │  Grader     │──► Fast-Tier    ──┐
  │  (pro Fall) │──► Default-Tier ──┼──► Werte pro Modell + Kosten + Latenz
  └─────────────┘──► Deep-Tier    ──┘
                                       │
                                       ▼
                              Sieger / Regressions-Flag
  1. 01

    Datensatz wählen

    Starten Sie mit 20 echten Issues aus Ihrem Repo oder einem öffentlichen Satz wie SWE-bench Verified. Jeder Fall trägt erwartetes Verhalten — der Grader hat Ground Truth.

  2. 02

    Tier-übergreifend laufen

    Derselbe Datensatz läuft parallel gegen Fast, Default und Deep. Token-Zählungen, Latenz und Kosten werden pro Fall erfasst, nicht gemittelt.

  3. 03

    Regressionstabelle lesen

    Qualität wird 0-100 bewertet; Kosten in Mikrodollar. Das Dashboard hebt jedes Modell hervor, dessen Score gegenüber der vorherigen Baseline gesunken ist — Regressionen fallen laut auf, nicht lautlos.

Benchmark-Ergebnisse für Ihre Codebasis sehen

Zugang anfragen, um Evaluierungen gegen Ihre realen Projekte durchzuführen.

Frühzugang anfragen