תיעוד

Benchmarks

מדידת איכות pipeline עם תרחישים ניתנים לשחזור. זיהוי רגרסיות לפני הפרודקשן.

Benchmarks

benchmark הוא אוסף תרחישי הערכה שמופעלים אוטומטית מול pipeline. זהו הכלי למדידה אובייקטיבית של איכות agent ולגילוי רגרסיות לפני שמגיעות לפרודקשן.

מדוע

agent שנראה כאילו עובד יכול לרגרס בשקט לאחר:

  • שינוי משימה;
  • שינוי מודל LLM;
  • הוספת tool חדש.

ללא benchmark, מגלים בפרודקשן. עם benchmark, העורך מתריע לפני הפרסום.

אנטומיה של תרחיש

תרחיש מכיל:

  • גירוי — הקלט שה-pipeline מקבל (הודעה, payload, שיחת טלפון מדומה).
  • רצף צפוי — תורות השיחה, tools שנקראו, פלטים שיוצרו.
  • checks — אסרציות מפורשות: "ה-agent חייב לקרוא ל-crm.search_customer", "התגובה חייבת להכיל את המילה 'החזר'", "ה-pipeline חייב להסתיים בפחות מ-3 תורות".

קטלוג checks

Checkבודק
tool_calledtool מסוים נקרא (אפשרית עם args ספציפיים)
tool_not_calledtool לא נקרא (אנטי false-positive)
output_containsפלט ה-agent מכיל טקסט / pattern
output_matches_jsonפלט JSON מאמת סכמה נתונה
turn_count_maxה-pipeline הסתיים ב-≤ N תורות
cost_maxהעלות הכוללת היא ≤ N קרדיטים
latency_maxהמשך הוא ≤ N שניות
branch_takenתנאי ניתב לענף הנכון

ה-checks ניתנים להרחבה: בתוכנית Enterprise, ניתן להוסיף מותאמים דרך אופרטור.

יצירת benchmark

  1. מעצב ← Benchmarks ← Benchmark חדש.
  2. בחרו את ה-pipeline היעד.
  3. הוסיפו תרחישים. ניתן:
    • לזייף ידנית תרחיש (המדויק ביותר).
    • ללכוד מהיסטוריה — להמיר ביצוע אמיתי לתרחיש (עם אנונימיזציה).

benchmark טוב מכיל תמהיל: מקרה סטנדרטי, מקרי קצה, מקרים עוינים (ניסיונות מניפולציה, עמימות, נתונים חסרים).

הפעלת benchmark

מממשק הניהול:

  • הפעלה בודדת — תוצאות מיידיות, drawer עם פירוט לפי תרחיש.
  • הפעלה מתוכנתת — כל לילה, בכל פרסום גרסה חדשה וכד'.

הדוח מציין:

  • שיעור הצלחה לפי check
  • רגרסיה לעומת הגרסה הקודמת
  • רשימת התרחישים שנכשלו, עם ה-diff לעומת הצפוי

המלצות

  • התחילו קטן — 5 תרחישים ממוקדים שווים יותר מ-50 תרחישים גסים.
  • הריצו benchmark לפני כל פרסום. העורך יכול לחסום את הפרסום אם ה-benchmark רגרס.
  • גרסו את המשימות. לא רק pipelines: גם המשימות מתפתחות.
  • שמרו על קריאות ה-checks. check שדורש 20 שורות הסבר כדי להבין אותו הוא check שצריך לפרק.