From df79bdaba6a9919c588dcb062bb7bdf9834e199d Mon Sep 17 00:00:00 2001
From: Anipik <anirudh.agnihotry@uipath.com>
Date: Fri, 9 Jan 2026 02:52:44 -0800
Subject: [PATCH 1/6] feat(eval): add span output attributes and metadata for
 evaluation spans
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- Created _span_utils.py module with Pydantic models for span outputs
  - EvalSetRunOutput: for "Evaluation Set Run" spans
  - EvaluationOutput: for "Evaluation" spans
  - EvaluationOutputSpanOutput: for "Evaluation output" spans
- Added calculation functions for overall and evaluation average scores
- Added low-level functions to set span attributes (output, agentId, agentName, schemas)
- Added high-level configuration functions for complete span setup
- Refactored _runtime.py to use utility functions (reduced from ~30 to ~6 lines per span)
- Added comprehensive unit tests (19 tests in test_eval_span_utils.py)
- Added integration tests (3 tests in test_eval_tracing_integration.py)
- Added span attribute tests (13 tests in test_eval_runtime_spans.py)
- Fixed SpanCapturingTracer to capture attributes set via set_attribute()

All spans now include:
- output: JSON with score for eval set run and evaluation spans
- output: JSON with type, value, justification for evaluation output spans
- agentId: execution ID
- agentName: "N/A"
- inputSchema: runtime input schema as JSON
- outputSchema: runtime output schema as JSON

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
---
 src/uipath/_cli/_evals/_runtime.py            |  40 +-
 src/uipath/_cli/_evals/_span_utils.py         | 290 +++++++++++
 tests/cli/eval/test_eval_runtime_spans.py     | 184 +++++++
 tests/cli/eval/test_eval_span_utils.py        | 462 ++++++++++++++++++
 .../cli/eval/test_eval_tracing_integration.py | 297 ++++++++++-
 5 files changed, 1268 insertions(+), 5 deletions(-)
 create mode 100644 src/uipath/_cli/_evals/_span_utils.py
 create mode 100644 tests/cli/eval/test_eval_span_utils.py

diff --git a/src/uipath/_cli/_evals/_runtime.py b/src/uipath/_cli/_evals/_runtime.py
index 948d94c3e..3447378fd 100644
--- a/src/uipath/_cli/_evals/_runtime.py
+++ b/src/uipath/_cli/_evals/_runtime.py
@@ -38,6 +38,11 @@
 from uipath.runtime.logging import UiPathRuntimeExecutionLogHandler
 from uipath.runtime.schema import UiPathRuntimeSchema
 
+from uipath._cli._evals._span_utils import (
+    configure_eval_set_run_span,
+    configure_evaluation_span,
+    set_evaluation_output_span_output,
+)
 from uipath._cli._evals.mocks.cache_manager import CacheManager
 from uipath._cli._evals.mocks.input_mocker import (
     generate_llm_input,
@@ -355,6 +360,17 @@ async def execute(self) -> UiPathRuntimeResult:
                             evaluator_averages[eval_id] = (
                                 evaluator_averages[eval_id] / evaluator_count[eval_id]
                             )
+
+                        # Configure span with output and metadata
+                        await configure_eval_set_run_span(
+                            span=span,
+                            evaluator_averages=evaluator_averages,
+                            execution_id=self.execution_id,
+                            runtime=runtime,
+                            get_schema_func=self.get_schema,
+                            success=not any_failed,
+                        )
+
                         await self.event_bus.publish(
                             EvaluationEvents.UPDATE_EVAL_SET_RUN,
                             EvalSetRunUpdatedEvent(
@@ -422,7 +438,7 @@ async def _execute_eval(
                 "eval_item_id": eval_item.id,
                 "eval_item_name": eval_item.name,
             },
-        ):
+        ) as span:
             evaluation_run_results = EvaluationRunResult(
                 evaluation_name=eval_item.name, evaluation_run_results=[]
             )
@@ -583,6 +599,18 @@ async def _execute_eval(
             finally:
                 clear_execution_context()
 
+            # Configure span with output and metadata
+            await configure_evaluation_span(
+                span=span,
+                evaluation_run_results=evaluation_run_results,
+                execution_id=execution_id,
+                runtime=runtime,
+                get_schema_func=self.get_schema,
+                agent_execution_output=agent_execution_output
+                if "agent_execution_output" in locals()
+                else None,
+            )
+
             return evaluation_run_results
 
     async def _generate_input_for_eval(
@@ -766,6 +794,7 @@ async def run_evaluator(
             }
 
             # Add justification if available
+            justification = None
             if result.details:
                 if isinstance(result.details, BaseModel):
                     details_dict = result.details.model_dump()
@@ -779,8 +808,13 @@ async def run_evaluator(
             with tracer.start_as_current_span(
                 "Evaluation output",
                 attributes=eval_output_attrs,
-            ):
-                pass  # Span just records the output, no work needed
+            ) as span:
+                # Set output using utility function
+                set_evaluation_output_span_output(
+                    span=span,
+                    score=result.score,
+                    justification=justification,
+                )
 
             return result
 
diff --git a/src/uipath/_cli/_evals/_span_utils.py b/src/uipath/_cli/_evals/_span_utils.py
new file mode 100644
index 000000000..008b01863
--- /dev/null
+++ b/src/uipath/_cli/_evals/_span_utils.py
@@ -0,0 +1,290 @@
+"""Utility functions for setting evaluation span attributes."""
+
+import json
+from typing import Any, Dict, Optional
+
+from opentelemetry.sdk.trace import Span
+from opentelemetry.trace import Status, StatusCode
+from pydantic import BaseModel, ConfigDict, Field
+
+# Type hint for runtime protocol (avoids circular imports)
+try:
+    from uipath.runtime import UiPathRuntimeProtocol
+except ImportError:
+    UiPathRuntimeProtocol = Any  # type: ignore
+
+
+class EvalSetRunOutput(BaseModel):
+    """Output model for Evaluation Set Run span."""
+
+    model_config = ConfigDict(populate_by_name=True)
+
+    score: int = Field(..., alias="score")
+
+
+class EvaluationOutput(BaseModel):
+    """Output model for Evaluation span."""
+
+    model_config = ConfigDict(populate_by_name=True)
+
+    score: int = Field(..., alias="score")
+
+
+class EvaluationOutputSpanOutput(BaseModel):
+    """Output model for Evaluation output span."""
+
+    model_config = ConfigDict(populate_by_name=True)
+
+    type: int = Field(1, alias="type")
+    value: float = Field(..., alias="value")
+    justification: Optional[str] = Field(None, alias="justification")
+
+
+def calculate_overall_score(evaluator_averages: Dict[str, float]) -> float:
+    """Calculate overall average score from evaluator averages.
+
+    Args:
+        evaluator_averages: Dictionary mapping evaluator IDs to their average scores
+
+    Returns:
+        Overall average score across all evaluators, or 0.0 if no evaluators
+    """
+    if not evaluator_averages:
+        return 0.0
+    return sum(evaluator_averages.values()) / len(evaluator_averages)
+
+
+def calculate_evaluation_average_score(evaluation_run_results: Any) -> float:
+    """Calculate average score from evaluation run results.
+
+    Args:
+        evaluation_run_results: EvaluationRunResult object containing evaluation results
+
+    Returns:
+        Average score across all evaluators, or 0.0 if no results
+    """
+    if not evaluation_run_results.evaluation_run_results:
+        return 0.0
+
+    total_score = sum(
+        result.result.score for result in evaluation_run_results.evaluation_run_results
+    )
+    return total_score / len(evaluation_run_results.evaluation_run_results)
+
+
+def set_eval_set_run_output_and_metadata(
+    span: Span,
+    overall_score: float,
+    execution_id: str,
+    input_schema: Optional[Dict[str, Any]],
+    output_schema: Optional[Dict[str, Any]],
+    success: bool = True,
+) -> None:
+    """Set output and metadata attributes for Evaluation Set Run span.
+
+    Args:
+        span: The OpenTelemetry span to set attributes on
+        overall_score: The overall average score across all evaluators
+        execution_id: The execution ID for the evaluation set run
+        input_schema: The input schema from the runtime
+        output_schema: The output schema from the runtime
+        success: Whether the evaluation set run was successful
+    """
+    # Set span output with overall score using Pydantic model
+    output = EvalSetRunOutput(score=int(overall_score))
+    span.set_attribute("output", output.model_dump_json(by_alias=True))
+
+    # Set metadata attributes
+    span.set_attribute("agentId", execution_id)
+    span.set_attribute("agentName", "N/A")
+
+    # Safely serialize schemas to JSON
+    try:
+        span.set_attribute("inputSchema", json.dumps(input_schema or {}))
+    except (TypeError, ValueError):
+        span.set_attribute("inputSchema", json.dumps({}))
+
+    try:
+        span.set_attribute("outputSchema", json.dumps(output_schema or {}))
+    except (TypeError, ValueError):
+        span.set_attribute("outputSchema", json.dumps({}))
+
+    # Set span status
+    if success:
+        span.set_status(Status(StatusCode.OK))
+
+
+def set_evaluation_output_and_metadata(
+    span: Span,
+    avg_score: float,
+    execution_id: str,
+    input_schema: Optional[Dict[str, Any]],
+    output_schema: Optional[Dict[str, Any]],
+    has_error: bool = False,
+    error_message: Optional[str] = None,
+) -> None:
+    """Set output and metadata attributes for Evaluation span.
+
+    Args:
+        span: The OpenTelemetry span to set attributes on
+        avg_score: The average score for this evaluation across all evaluators
+        execution_id: The execution ID for this evaluation
+        input_schema: The input schema from the runtime
+        output_schema: The output schema from the runtime
+        has_error: Whether the evaluation had an error
+        error_message: Optional error message if has_error is True
+    """
+    # Set span output with average score using Pydantic model
+    output = EvaluationOutput(score=int(avg_score))
+    span.set_attribute("output", output.model_dump_json(by_alias=True))
+
+    # Set metadata attributes
+    span.set_attribute("agentId", execution_id)
+    span.set_attribute("agentName", "N/A")
+
+    # Safely serialize schemas to JSON
+    try:
+        span.set_attribute("inputSchema", json.dumps(input_schema or {}))
+    except (TypeError, ValueError):
+        span.set_attribute("inputSchema", json.dumps({}))
+
+    try:
+        span.set_attribute("outputSchema", json.dumps(output_schema or {}))
+    except (TypeError, ValueError):
+        span.set_attribute("outputSchema", json.dumps({}))
+
+    # Set span status based on success
+    if has_error and error_message:
+        span.set_status(Status(StatusCode.ERROR, error_message))
+    elif not has_error:
+        span.set_status(Status(StatusCode.OK))
+
+
+def set_evaluation_output_span_output(
+    span: Span,
+    score: float,
+    justification: Optional[str] = None,
+) -> None:
+    """Set output attribute for Evaluation output span.
+
+    Args:
+        span: The OpenTelemetry span to set attributes on
+        score: The evaluation score
+        justification: Optional justification text for the score
+    """
+    # Set output using Pydantic model
+    output = EvaluationOutputSpanOutput(
+        value=score,
+        justification=justification,
+    )
+    span.set_attribute(
+        "output", output.model_dump_json(by_alias=True, exclude_none=True)
+    )
+
+
+# High-level wrapper functions that handle complete flow
+
+
+async def configure_eval_set_run_span(
+    span: Span,
+    evaluator_averages: Dict[str, float],
+    execution_id: str,
+    runtime: Any,
+    get_schema_func: Any,
+    success: bool = True,
+) -> None:
+    """Configure Evaluation Set Run span with output and metadata.
+
+    This high-level function handles:
+    - Calculating overall score from evaluator averages
+    - Getting runtime schemas
+    - Setting all span attributes
+
+    Args:
+        span: The OpenTelemetry span to configure
+        evaluator_averages: Dictionary mapping evaluator IDs to their average scores
+        execution_id: The execution ID for the evaluation set run
+        runtime: The runtime instance
+        get_schema_func: Async function to get schema from runtime
+        success: Whether the evaluation set run was successful
+    """
+    # Calculate overall score
+    overall_score = calculate_overall_score(evaluator_averages)
+
+    # Get runtime schemas
+    try:
+        schema = await get_schema_func(runtime)
+        input_schema = schema.input_schema
+        output_schema = schema.output_schema
+    except Exception:
+        input_schema = None
+        output_schema = None
+
+    # Set span output and metadata
+    set_eval_set_run_output_and_metadata(
+        span=span,
+        overall_score=overall_score,
+        execution_id=execution_id,
+        input_schema=input_schema,
+        output_schema=output_schema,
+        success=success,
+    )
+
+
+async def configure_evaluation_span(
+    span: Span,
+    evaluation_run_results: Any,
+    execution_id: str,
+    runtime: Any,
+    get_schema_func: Any,
+    agent_execution_output: Optional[Any] = None,
+) -> None:
+    """Configure Evaluation span with output and metadata.
+
+    This high-level function handles:
+    - Calculating average score from evaluation results
+    - Getting runtime schemas
+    - Determining error status
+    - Setting all span attributes
+
+    Args:
+        span: The OpenTelemetry span to configure
+        evaluation_run_results: EvaluationRunResult object containing evaluation results
+        execution_id: The execution ID for this evaluation
+        runtime: The runtime instance
+        get_schema_func: Async function to get schema from runtime
+        agent_execution_output: Optional agent execution output for error checking
+    """
+    # Calculate average score
+    avg_score = calculate_evaluation_average_score(evaluation_run_results)
+
+    # Get runtime schemas
+    try:
+        schema = await get_schema_func(runtime)
+        input_schema = schema.input_schema
+        output_schema = schema.output_schema
+    except Exception:
+        input_schema = None
+        output_schema = None
+
+    # Determine error status
+    has_error = False
+    error_message = None
+    if agent_execution_output is not None:
+        try:
+            if agent_execution_output.result.error:
+                has_error = True
+                error_message = str(agent_execution_output.result.error)
+        except (AttributeError, NameError, UnboundLocalError):
+            pass
+
+    # Set span output and metadata
+    set_evaluation_output_and_metadata(
+        span=span,
+        avg_score=avg_score,
+        execution_id=execution_id,
+        input_schema=input_schema,
+        output_schema=output_schema,
+        has_error=has_error,
+        error_message=error_message,
+    )
diff --git a/tests/cli/eval/test_eval_runtime_spans.py b/tests/cli/eval/test_eval_runtime_spans.py
index d5443f95e..e027cf6d6 100644
--- a/tests/cli/eval/test_eval_runtime_spans.py
+++ b/tests/cli/eval/test_eval_runtime_spans.py
@@ -65,6 +65,69 @@ def test_span_has_eval_set_run_span_type(self):
         span_attributes = {"span_type": "eval_set_run"}
         assert span_attributes["span_type"] == "eval_set_run"
 
+    def test_span_has_output_attribute(self):
+        """Test that span has output attribute with score."""
+        import json
+
+        # Simulate the output attribute set by configure_eval_set_run_span
+        output_data = {"score": 85}
+        output_json = json.dumps(output_data)
+
+        span_attributes = {
+            "span_type": "eval_set_run",
+            "output": output_json,
+        }
+
+        assert "output" in span_attributes
+        parsed_output = json.loads(span_attributes["output"])
+        assert parsed_output["score"] == 85
+        assert isinstance(parsed_output["score"], int)
+
+    def test_span_has_agent_id(self):
+        """Test that span has agentId metadata attribute."""
+        execution_id = "exec-123"
+        span_attributes = {
+            "span_type": "eval_set_run",
+            "agentId": execution_id,
+        }
+        assert "agentId" in span_attributes
+        assert span_attributes["agentId"] == "exec-123"
+
+    def test_span_has_agent_name(self):
+        """Test that span has agentName metadata attribute."""
+        span_attributes = {
+            "span_type": "eval_set_run",
+            "agentName": "N/A",
+        }
+        assert "agentName" in span_attributes
+        assert span_attributes["agentName"] == "N/A"
+
+    def test_span_has_input_schema(self):
+        """Test that span has inputSchema metadata attribute."""
+        import json
+
+        input_schema = {"type": "object", "properties": {"x": {"type": "number"}}}
+        span_attributes = {
+            "span_type": "eval_set_run",
+            "inputSchema": json.dumps(input_schema),
+        }
+        assert "inputSchema" in span_attributes
+        parsed_schema = json.loads(span_attributes["inputSchema"])
+        assert parsed_schema["type"] == "object"
+
+    def test_span_has_output_schema(self):
+        """Test that span has outputSchema metadata attribute."""
+        import json
+
+        output_schema = {"type": "string"}
+        span_attributes = {
+            "span_type": "eval_set_run",
+            "outputSchema": json.dumps(output_schema),
+        }
+        assert "outputSchema" in span_attributes
+        parsed_schema = json.loads(span_attributes["outputSchema"])
+        assert parsed_schema["type"] == "string"
+
     def test_span_includes_eval_set_run_id_when_present(self):
         """Test that eval_set_run_id is included when context has it."""
         eval_set_run_id = str(uuid.uuid4())
@@ -146,6 +209,69 @@ def test_span_has_all_required_attributes(self):
         for attr in required_attrs:
             assert attr in span_attributes, f"Missing required attribute: {attr}"
 
+    def test_span_has_output_attribute(self):
+        """Test that span has output attribute with score."""
+        import json
+
+        # Simulate the output attribute set by configure_evaluation_span
+        output_data = {"score": 90}
+        output_json = json.dumps(output_data)
+
+        span_attributes = {
+            "span_type": "evaluation",
+            "output": output_json,
+        }
+
+        assert "output" in span_attributes
+        parsed_output = json.loads(span_attributes["output"])
+        assert parsed_output["score"] == 90
+        assert isinstance(parsed_output["score"], int)
+
+    def test_span_has_agent_id(self):
+        """Test that span has agentId metadata attribute."""
+        execution_id = "eval-exec-456"
+        span_attributes = {
+            "span_type": "evaluation",
+            "agentId": execution_id,
+        }
+        assert "agentId" in span_attributes
+        assert span_attributes["agentId"] == "eval-exec-456"
+
+    def test_span_has_agent_name(self):
+        """Test that span has agentName metadata attribute."""
+        span_attributes = {
+            "span_type": "evaluation",
+            "agentName": "N/A",
+        }
+        assert "agentName" in span_attributes
+        assert span_attributes["agentName"] == "N/A"
+
+    def test_span_has_input_schema(self):
+        """Test that span has inputSchema metadata attribute."""
+        import json
+
+        input_schema = {"type": "object"}
+        span_attributes = {
+            "span_type": "evaluation",
+            "inputSchema": json.dumps(input_schema),
+        }
+        assert "inputSchema" in span_attributes
+        parsed_schema = json.loads(span_attributes["inputSchema"])
+        assert parsed_schema["type"] == "object"
+
+    def test_span_has_output_schema(self):
+        """Test that span has outputSchema metadata attribute."""
+        import json
+
+        output_schema = {"type": "object"}
+        span_attributes = {
+            "span_type": "evaluation",
+            "outputSchema": json.dumps(output_schema),
+        }
+        assert "outputSchema" in span_attributes
+        parsed_schema = json.loads(span_attributes["outputSchema"])
+        assert parsed_schema["type"] == "object"
+
 
 class TestEvaluatorSpan:
     """Tests for the 'Evaluator: {name}' span."""
@@ -572,6 +698,64 @@ def test_span_has_openinference_kind(self):
         }
         assert span_attributes["openinference.span.kind"] == "CHAIN"
 
+    def test_span_has_output_attribute_with_type_value_justification(self):
+        """Test that span has output attribute with type, value, and justification."""
+        import json
+
+        # Simulate the output attribute set by set_evaluation_output_span_output
+        output_data = {
+            "type": 1,
+            "value": 0.92,
+            "justification": "The outputs are semantically equivalent",
+        }
+        output_json = json.dumps(output_data)
+
+        span_attributes = {
+            "span.type": "evalOutput",
+            "output": output_json,
+        }
+
+        assert "output" in span_attributes
+        parsed_output = json.loads(span_attributes["output"])
+        assert parsed_output["type"] == 1
+        assert parsed_output["value"] == 0.92
+        assert (
+            parsed_output["justification"] == "The outputs are semantically equivalent"
+        )
+
+    def test_span_output_type_is_always_one(self):
+        """Test that output type field is always 1."""
+        import json
+
+        output_data = {"type": 1, "value": 0.5}
+        output_json = json.dumps(output_data)
+
+        span_attributes = {
+            "span.type": "evalOutput",
+            "output": output_json,
+        }
+
+        parsed_output = json.loads(span_attributes["output"])
+        assert parsed_output["type"] == 1
+
+    def test_span_output_without_justification(self):
+        """Test that output can be set without justification field."""
+        import json
+
+        # When justification is None, it should be excluded from output
+        output_data = {"type": 1, "value": 0.75}
+        output_json = json.dumps(output_data)
+
+        span_attributes = {
+            "span.type": "evalOutput",
+            "output": output_json,
+        }
+
+        parsed_output = json.loads(span_attributes["output"])
+        assert parsed_output["type"] == 1
+        assert parsed_output["value"] == 0.75
+        assert "justification" not in parsed_output
+
 
 class TestEvaluationOutputSpanHierarchy:
     """Tests verifying the Evaluation output span hierarchy."""
diff --git a/tests/cli/eval/test_eval_span_utils.py b/tests/cli/eval/test_eval_span_utils.py
new file mode 100644
index 000000000..dc438bb19
--- /dev/null
+++ b/tests/cli/eval/test_eval_span_utils.py
@@ -0,0 +1,462 @@
+"""Unit tests for evaluation span utility functions."""
+
+import json
+from typing import Any
+from unittest.mock import MagicMock
+
+import pytest
+from opentelemetry.trace import Status, StatusCode
+
+from uipath._cli._evals._span_utils import (
+    EvalSetRunOutput,
+    EvaluationOutput,
+    EvaluationOutputSpanOutput,
+    calculate_evaluation_average_score,
+    calculate_overall_score,
+    configure_eval_set_run_span,
+    configure_evaluation_span,
+    set_eval_set_run_output_and_metadata,
+    set_evaluation_output_and_metadata,
+    set_evaluation_output_span_output,
+)
+
+
+class MockSpan:
+    """Mock span for testing."""
+
+    def __init__(self):
+        self.attributes = {}
+        self._status = None
+
+    def set_attribute(self, key: str, value: Any) -> None:
+        self.attributes[key] = value
+
+    def set_status(self, status: Status) -> None:
+        self._status = status
+
+
+class TestPydanticModels:
+    """Test the Pydantic models for span outputs."""
+
+    def test_eval_set_run_output_model(self):
+        """Test EvalSetRunOutput model serialization."""
+        output = EvalSetRunOutput(score=85)
+        json_str = output.model_dump_json(by_alias=True)
+        data = json.loads(json_str)
+
+        assert data == {"score": 85}
+        assert isinstance(data["score"], int)
+
+    def test_evaluation_output_model(self):
+        """Test EvaluationOutput model serialization."""
+        output = EvaluationOutput(score=90)
+        json_str = output.model_dump_json(by_alias=True)
+        data = json.loads(json_str)
+
+        assert data == {"score": 90}
+        assert isinstance(data["score"], int)
+
+    def test_evaluation_output_span_output_model_with_justification(self):
+        """Test EvaluationOutputSpanOutput model with justification."""
+        output = EvaluationOutputSpanOutput(
+            value=75.5, justification="The output is semantically similar"
+        )
+        json_str = output.model_dump_json(by_alias=True, exclude_none=True)
+        data = json.loads(json_str)
+
+        assert data["type"] == 1
+        assert data["value"] == 75.5
+        assert data["justification"] == "The output is semantically similar"
+
+    def test_evaluation_output_span_output_model_without_justification(self):
+        """Test EvaluationOutputSpanOutput model without justification."""
+        output = EvaluationOutputSpanOutput(value=75.5)
+        json_str = output.model_dump_json(by_alias=True, exclude_none=True)
+        data = json.loads(json_str)
+
+        assert data["type"] == 1
+        assert data["value"] == 75.5
+        assert "justification" not in data
+
+
+class TestCalculationFunctions:
+    """Test the score calculation functions."""
+
+    def test_calculate_overall_score_with_evaluators(self):
+        """Test calculate_overall_score with multiple evaluators."""
+        evaluator_averages = {
+            "eval1": 80.0,
+            "eval2": 90.0,
+            "eval3": 70.0,
+        }
+        result = calculate_overall_score(evaluator_averages)
+
+        assert result == 80.0  # (80 + 90 + 70) / 3
+
+    def test_calculate_overall_score_empty(self):
+        """Test calculate_overall_score with no evaluators."""
+        result = calculate_overall_score({})
+
+        assert result == 0.0
+
+    def test_calculate_evaluation_average_score_with_results(self):
+        """Test calculate_evaluation_average_score with results."""
+        mock_result1 = MagicMock()
+        mock_result1.result.score = 80.0
+
+        mock_result2 = MagicMock()
+        mock_result2.result.score = 90.0
+
+        mock_evaluation_run_results = MagicMock()
+        mock_evaluation_run_results.evaluation_run_results = [
+            mock_result1,
+            mock_result2,
+        ]
+
+        result = calculate_evaluation_average_score(mock_evaluation_run_results)
+
+        assert result == 85.0  # (80 + 90) / 2
+
+    def test_calculate_evaluation_average_score_empty(self):
+        """Test calculate_evaluation_average_score with no results."""
+        mock_evaluation_run_results = MagicMock()
+        mock_evaluation_run_results.evaluation_run_results = []
+
+        result = calculate_evaluation_average_score(mock_evaluation_run_results)
+
+        assert result == 0.0
+
+
+class TestSetSpanAttributeFunctions:
+    """Test the low-level span attribute setting functions."""
+
+    def test_set_eval_set_run_output_and_metadata(self):
+        """Test setting evaluation set run span attributes."""
+        span = MockSpan()
+
+        set_eval_set_run_output_and_metadata(
+            span=span,
+            overall_score=82.5,
+            execution_id="exec-123",
+            input_schema={"type": "object"},
+            output_schema={"type": "string"},
+            success=True,
+        )
+
+        # Check output
+        assert "output" in span.attributes
+        output_data = json.loads(span.attributes["output"])
+        assert output_data == {"score": 82}
+
+        # Check metadata
+        assert span.attributes["agentId"] == "exec-123"
+        assert span.attributes["agentName"] == "N/A"
+
+        # Check schemas
+        input_schema_data = json.loads(span.attributes["inputSchema"])
+        assert input_schema_data == {"type": "object"}
+
+        output_schema_data = json.loads(span.attributes["outputSchema"])
+        assert output_schema_data == {"type": "string"}
+
+        # Check status
+        assert span._status is not None
+        assert span._status.status_code == StatusCode.OK
+
+    def test_set_eval_set_run_output_and_metadata_with_none_schemas(self):
+        """Test setting span attributes with None schemas."""
+        span = MockSpan()
+
+        set_eval_set_run_output_and_metadata(
+            span=span,
+            overall_score=75.0,
+            execution_id="exec-456",
+            input_schema=None,
+            output_schema=None,
+            success=True,
+        )
+
+        # Check schemas default to empty objects
+        input_schema_data = json.loads(span.attributes["inputSchema"])
+        assert input_schema_data == {}
+
+        output_schema_data = json.loads(span.attributes["outputSchema"])
+        assert output_schema_data == {}
+
+    def test_set_evaluation_output_and_metadata(self):
+        """Test setting evaluation span attributes."""
+        span = MockSpan()
+
+        set_evaluation_output_and_metadata(
+            span=span,
+            avg_score=88.3,
+            execution_id="eval-789",
+            input_schema={"properties": {}},
+            output_schema={"properties": {}},
+            has_error=False,
+            error_message=None,
+        )
+
+        # Check output
+        assert "output" in span.attributes
+        output_data = json.loads(span.attributes["output"])
+        assert output_data == {"score": 88}
+
+        # Check metadata
+        assert span.attributes["agentId"] == "eval-789"
+        assert span.attributes["agentName"] == "N/A"
+
+        # Check status is OK
+        assert span._status is not None
+        assert span._status.status_code == StatusCode.OK
+
+    def test_set_evaluation_output_and_metadata_with_error(self):
+        """Test setting evaluation span attributes with error."""
+        span = MockSpan()
+
+        set_evaluation_output_and_metadata(
+            span=span,
+            avg_score=0.0,
+            execution_id="eval-error",
+            input_schema={},
+            output_schema={},
+            has_error=True,
+            error_message="Runtime error occurred",
+        )
+
+        # Check status is ERROR
+        assert span._status is not None
+        assert span._status.status_code == StatusCode.ERROR
+        assert "Runtime error occurred" in span._status.description
+
+    def test_set_evaluation_output_span_output_with_justification(self):
+        """Test setting evaluation output span attributes with justification."""
+        span = MockSpan()
+
+        set_evaluation_output_span_output(
+            span=span,
+            score=92.7,
+            justification="The answer is correct and well-formatted",
+        )
+
+        # Check output
+        assert "output" in span.attributes
+        output_data = json.loads(span.attributes["output"])
+
+        assert output_data["type"] == 1
+        assert output_data["value"] == 92.7
+        assert (
+            output_data["justification"] == "The answer is correct and well-formatted"
+        )
+
+    def test_set_evaluation_output_span_output_without_justification(self):
+        """Test setting evaluation output span attributes without justification."""
+        span = MockSpan()
+
+        set_evaluation_output_span_output(
+            span=span,
+            score=85.0,
+            justification=None,
+        )
+
+        # Check output
+        assert "output" in span.attributes
+        output_data = json.loads(span.attributes["output"])
+
+        assert output_data["type"] == 1
+        assert output_data["value"] == 85.0
+        assert "justification" not in output_data
+
+
+class TestHighLevelConfigurationFunctions:
+    """Test the high-level span configuration functions."""
+
+    @pytest.mark.asyncio
+    async def test_configure_eval_set_run_span(self):
+        """Test configuring evaluation set run span."""
+        span = MockSpan()
+
+        evaluator_averages = {
+            "eval1": 80.0,
+            "eval2": 90.0,
+        }
+
+        # Mock runtime and get_schema_func
+        mock_runtime = MagicMock()
+        mock_schema = MagicMock()
+        mock_schema.input_schema = {
+            "type": "object",
+            "properties": {"x": {"type": "number"}},
+        }
+        mock_schema.output_schema = {"type": "string"}
+
+        async def mock_get_schema(runtime):
+            return mock_schema
+
+        await configure_eval_set_run_span(
+            span=span,
+            evaluator_averages=evaluator_averages,
+            execution_id="exec-complete",
+            runtime=mock_runtime,
+            get_schema_func=mock_get_schema,
+            success=True,
+        )
+
+        # Verify score calculation
+        output_data = json.loads(span.attributes["output"])
+        assert output_data["score"] == 85  # (80 + 90) / 2
+
+        # Verify metadata
+        assert span.attributes["agentId"] == "exec-complete"
+        assert span.attributes["agentName"] == "N/A"
+
+        # Verify schemas
+        input_schema_data = json.loads(span.attributes["inputSchema"])
+        assert "properties" in input_schema_data
+        assert input_schema_data["properties"]["x"]["type"] == "number"
+
+        # Verify status
+        assert span._status.status_code == StatusCode.OK
+
+    @pytest.mark.asyncio
+    async def test_configure_eval_set_run_span_schema_error(self):
+        """Test configuring evaluation set run span when schema fails."""
+        span = MockSpan()
+
+        evaluator_averages = {"eval1": 75.0}
+
+        # Mock get_schema_func that raises exception
+        async def mock_get_schema_error(runtime):
+            raise Exception("Schema not found")
+
+        await configure_eval_set_run_span(
+            span=span,
+            evaluator_averages=evaluator_averages,
+            execution_id="exec-no-schema",
+            runtime=MagicMock(),
+            get_schema_func=mock_get_schema_error,
+            success=True,
+        )
+
+        # Verify schemas default to empty
+        input_schema_data = json.loads(span.attributes["inputSchema"])
+        assert input_schema_data == {}
+
+        output_schema_data = json.loads(span.attributes["outputSchema"])
+        assert output_schema_data == {}
+
+    @pytest.mark.asyncio
+    async def test_configure_evaluation_span(self):
+        """Test configuring evaluation span."""
+        span = MockSpan()
+
+        # Mock evaluation results
+        mock_result1 = MagicMock()
+        mock_result1.result.score = 70.0
+
+        mock_result2 = MagicMock()
+        mock_result2.result.score = 90.0
+
+        mock_evaluation_run_results = MagicMock()
+        mock_evaluation_run_results.evaluation_run_results = [
+            mock_result1,
+            mock_result2,
+        ]
+
+        # Mock runtime and schema
+        mock_runtime = MagicMock()
+        mock_schema = MagicMock()
+        mock_schema.input_schema = {"type": "object"}
+        mock_schema.output_schema = {"type": "object"}
+
+        async def mock_get_schema(runtime):
+            return mock_schema
+
+        # Mock agent execution output (no error)
+        mock_agent_output = MagicMock()
+        mock_agent_output.result.error = None
+
+        await configure_evaluation_span(
+            span=span,
+            evaluation_run_results=mock_evaluation_run_results,
+            execution_id="eval-complete",
+            runtime=mock_runtime,
+            get_schema_func=mock_get_schema,
+            agent_execution_output=mock_agent_output,
+        )
+
+        # Verify score calculation
+        output_data = json.loads(span.attributes["output"])
+        assert output_data["score"] == 80  # (70 + 90) / 2
+
+        # Verify metadata
+        assert span.attributes["agentId"] == "eval-complete"
+
+        # Verify status is OK (no error)
+        assert span._status.status_code == StatusCode.OK
+
+    @pytest.mark.asyncio
+    async def test_configure_evaluation_span_with_error(self):
+        """Test configuring evaluation span with agent error."""
+        span = MockSpan()
+
+        mock_evaluation_run_results = MagicMock()
+        mock_evaluation_run_results.evaluation_run_results = []
+
+        mock_runtime = MagicMock()
+
+        async def mock_get_schema(runtime):
+            mock_schema = MagicMock()
+            mock_schema.input_schema = {}
+            mock_schema.output_schema = {}
+            return mock_schema
+
+        # Mock agent execution output with error
+        mock_agent_output = MagicMock()
+        mock_error = MagicMock()
+        mock_error.__str__ = lambda self: "Agent failed"
+        mock_agent_output.result.error = mock_error
+
+        await configure_evaluation_span(
+            span=span,
+            evaluation_run_results=mock_evaluation_run_results,
+            execution_id="eval-error",
+            runtime=mock_runtime,
+            get_schema_func=mock_get_schema,
+            agent_execution_output=mock_agent_output,
+        )
+
+        # Verify status is ERROR
+        assert span._status.status_code == StatusCode.ERROR
+        assert "Agent failed" in span._status.description
+
+    @pytest.mark.asyncio
+    async def test_configure_evaluation_span_without_agent_output(self):
+        """Test configuring evaluation span without agent execution output."""
+        span = MockSpan()
+
+        mock_result = MagicMock()
+        mock_result.result.score = 85.0
+
+        mock_evaluation_run_results = MagicMock()
+        mock_evaluation_run_results.evaluation_run_results = [mock_result]
+
+        mock_runtime = MagicMock()
+
+        async def mock_get_schema(runtime):
+            mock_schema = MagicMock()
+            mock_schema.input_schema = {}
+            mock_schema.output_schema = {}
+            return mock_schema
+
+        await configure_evaluation_span(
+            span=span,
+            evaluation_run_results=mock_evaluation_run_results,
+            execution_id="eval-no-output",
+            runtime=mock_runtime,
+            get_schema_func=mock_get_schema,
+            agent_execution_output=None,
+        )
+
+        # Verify it doesn't crash and sets OK status
+        assert span._status.status_code == StatusCode.OK
diff --git a/tests/cli/eval/test_eval_tracing_integration.py b/tests/cli/eval/test_eval_tracing_integration.py
index eb5725f75..cbf258741 100644
--- a/tests/cli/eval/test_eval_tracing_integration.py
+++ b/tests/cli/eval/test_eval_tracing_integration.py
@@ -26,6 +26,9 @@ def __init__(self, name: str, attributes: dict[str, Any] | None = None):
     def set_status(self, status: Any) -> None:
         self._status = status
 
+    def set_attribute(self, key: str, value: Any) -> None:
+        self.attributes[key] = value
+
     def __enter__(self) -> "MockSpan":
         return self
 
@@ -44,9 +47,12 @@ def start_as_current_span(
         self, name: str, attributes: dict[str, Any] | None = None
     ):
         """Capture span creation and yield a mock span."""
-        span_info = {"name": name, "attributes": dict(attributes) if attributes else {}}
+        # Create MockSpan first so we can reference its attributes
+        mock_span = MockSpan(name, attributes)
+        # Store reference to mock_span.attributes so we capture any later set_attribute() calls
+        span_info = {"name": name, "attributes": mock_span.attributes}
         self.captured_spans.append(span_info)
-        yield MockSpan(name, attributes)
+        yield mock_span
 
     def get_spans_by_type(self, span_type: str) -> list[dict[str, Any]]:
         """Get all captured spans with the given span_type."""
@@ -650,3 +656,290 @@ def test_evaluation_output_span_has_correct_status_on_error(self) -> None:
 
         assert score_type == ScoreType.ERROR
         assert expected_status == StatusCode.ERROR
+
+
+class TestSpanOutputAttributes:
+    """Integration tests that verify output attributes are set correctly on spans."""
+
+    @pytest.fixture
+    def mock_trace_manager(self) -> MagicMock:
+        """Create a mock trace manager with a capturing tracer."""
+        trace_manager = MagicMock()
+        self.capturing_tracer = SpanCapturingTracer()
+        trace_manager.tracer_provider.get_tracer.return_value = self.capturing_tracer
+        trace_manager.tracer_span_processors = []
+        return trace_manager
+
+    @pytest.fixture
+    def mock_factory(self) -> MagicMock:
+        """Create a mock runtime factory."""
+        factory = MagicMock()
+        mock_runtime = AsyncMock()
+        mock_runtime.get_schema = AsyncMock(return_value=MagicMock())
+        factory.new_runtime = AsyncMock(return_value=mock_runtime)
+        return factory
+
+    @pytest.fixture
+    def mock_event_bus(self) -> MagicMock:
+        """Create a mock event bus."""
+        event_bus = MagicMock()
+        event_bus.publish = AsyncMock()
+        return event_bus
+
+    @pytest.mark.asyncio
+    async def test_evaluation_set_run_span_has_output_attribute(
+        self,
+        mock_trace_manager: MagicMock,
+        mock_factory: MagicMock,
+        mock_event_bus: MagicMock,
+    ) -> None:
+        """Test that Evaluation Set Run span has output attribute with score."""
+        from uipath._cli._evals._models._evaluation_set import EvaluationItem
+
+        context = create_eval_context(
+            eval_set="test.json",
+            entrypoint="main.py:main",
+        )
+
+        runtime = UiPathEvalRuntime(
+            context=context,
+            factory=mock_factory,
+            trace_manager=mock_trace_manager,
+            event_bus=mock_event_bus,
+        )
+
+        # Mock the runtime and evaluator
+        mock_runtime = AsyncMock()
+        mock_schema = MagicMock()
+        mock_schema.input_schema = {"type": "object"}
+        mock_schema.output_schema = {"type": "object"}
+        mock_runtime.get_schema = AsyncMock(return_value=mock_schema)
+        mock_factory.new_runtime = AsyncMock(return_value=mock_runtime)
+
+        # Mock execute_runtime to return success
+        mock_execution_output = MagicMock()
+        mock_execution_output.result.output = {"result": "success"}
+        mock_execution_output.result.status = "successful"
+        mock_execution_output.result.error = None
+        mock_execution_output.spans = []
+        mock_execution_output.logs = []
+
+        # Create simple evaluator that returns 0.85
+        evaluator = MagicMock()
+        evaluator.id = "test-evaluator"
+        evaluator.name = "Test Evaluator"
+
+        with patch.object(
+            runtime,
+            "execute_runtime",
+            new=AsyncMock(return_value=mock_execution_output),
+        ):
+            with patch.object(
+                runtime,
+                "run_evaluator",
+                new=AsyncMock(return_value=NumericEvaluationResult(score=0.85)),
+            ):
+                eval_item = EvaluationItem(
+                    id="item-1",
+                    name="Test",
+                    inputs={"x": 1},
+                    evaluation_criterias={"test-evaluator": {}},
+                )
+
+                # Execute evaluation
+                await runtime._execute_eval(eval_item, [evaluator], mock_runtime)
+
+        # Check that Evaluation span has output attribute
+        eval_spans = self.capturing_tracer.get_spans_by_type("evaluation")
+        assert len(eval_spans) > 0
+
+        eval_span = eval_spans[0]
+        assert "output" in eval_span["attributes"]
+
+        # Parse and verify output JSON
+        import json
+
+        output_data = json.loads(eval_span["attributes"]["output"])
+        assert "score" in output_data
+        assert isinstance(output_data["score"], int)
+
+    @pytest.mark.asyncio
+    async def test_evaluation_span_has_metadata_attributes(
+        self,
+        mock_trace_manager: MagicMock,
+        mock_factory: MagicMock,
+        mock_event_bus: MagicMock,
+    ) -> None:
+        """Test that Evaluation span has metadata attributes (agentId, agentName, schemas)."""
+        from uipath._cli._evals._models._evaluation_set import EvaluationItem
+
+        context = create_eval_context(
+            eval_set="test.json",
+            entrypoint="main.py:main",
+        )
+
+        runtime = UiPathEvalRuntime(
+            context=context,
+            factory=mock_factory,
+            trace_manager=mock_trace_manager,
+            event_bus=mock_event_bus,
+        )
+
+        # Mock the runtime
+        mock_runtime = AsyncMock()
+        mock_schema = MagicMock()
+        mock_schema.input_schema = {
+            "type": "object",
+            "properties": {"x": {"type": "number"}},
+        }
+        mock_schema.output_schema = {"type": "string"}
+        mock_runtime.get_schema = AsyncMock(return_value=mock_schema)
+        mock_factory.new_runtime = AsyncMock(return_value=mock_runtime)
+
+        # Mock execute_runtime
+        mock_execution_output = MagicMock()
+        mock_execution_output.result.output = {"result": "success"}
+        mock_execution_output.result.status = "successful"
+        mock_execution_output.result.error = None
+        mock_execution_output.spans = []
+        mock_execution_output.logs = []
+
+        evaluator = MagicMock()
+        evaluator.id = "test-evaluator"
+        evaluator.name = "Test Evaluator"
+
+        with patch.object(
+            runtime,
+            "execute_runtime",
+            new=AsyncMock(return_value=mock_execution_output),
+        ):
+            with patch.object(
+                runtime,
+                "run_evaluator",
+                new=AsyncMock(return_value=NumericEvaluationResult(score=0.90)),
+            ):
+                eval_item = EvaluationItem(
+                    id="item-metadata",
+                    name="Test Metadata",
+                    inputs={"x": 42},
+                    evaluation_criterias={"test-evaluator": {}},
+                )
+
+                await runtime._execute_eval(eval_item, [evaluator], mock_runtime)
+
+        # Check metadata attributes on Evaluation span
+        eval_spans = self.capturing_tracer.get_spans_by_type("evaluation")
+        assert len(eval_spans) > 0
+
+        eval_span = eval_spans[0]
+
+        # Check agentId
+        assert "agentId" in eval_span["attributes"]
+
+        # Check agentName
+        assert "agentName" in eval_span["attributes"]
+        assert eval_span["attributes"]["agentName"] == "N/A"
+
+        # Check inputSchema
+        assert "inputSchema" in eval_span["attributes"]
+        import json
+
+        input_schema = json.loads(eval_span["attributes"]["inputSchema"])
+        assert input_schema["type"] == "object"
+        assert "properties" in input_schema
+
+        # Check outputSchema
+        assert "outputSchema" in eval_span["attributes"]
+        output_schema = json.loads(eval_span["attributes"]["outputSchema"])
+        assert output_schema["type"] == "string"
+
+    @pytest.mark.asyncio
+    async def test_evaluation_output_span_has_output_with_type_and_value(
+        self,
+        mock_trace_manager: MagicMock,
+        mock_factory: MagicMock,
+        mock_event_bus: MagicMock,
+    ) -> None:
+        """Test that Evaluation output span has output with type, value, and justification."""
+        context = create_eval_context(
+            eval_set="test.json",
+            entrypoint="main.py:main",
+        )
+
+        runtime = UiPathEvalRuntime(
+            context=context,
+            factory=mock_factory,
+            trace_manager=mock_trace_manager,
+            event_bus=mock_event_bus,
+        )
+
+        # Mock execution output
+        mock_execution_output = MagicMock()
+        mock_execution_output.result.output = {"answer": "42"}
+        mock_execution_output.spans = []
+        mock_execution_output.logs = []
+        mock_execution_output.execution_time = 1.5
+
+        # Create evaluator with details
+        evaluator = MagicMock()
+        evaluator.id = "similarity-evaluator"
+        evaluator.name = "Similarity Evaluator"
+
+        from pydantic import BaseModel
+
+        from uipath.eval.models import NumericEvaluationResult
+
+        class EvaluationDetails(BaseModel):
+            justification: str
+
+        eval_result = NumericEvaluationResult(
+            score=0.92,
+            details=EvaluationDetails(
+                justification="The outputs are semantically equivalent"
+            ),
+        )
+
+        with patch.object(
+            evaluator,
+            "validate_and_evaluate_criteria",
+            new=AsyncMock(return_value=eval_result),
+        ):
+            from uipath._cli._evals._models._evaluation_set import EvaluationItem
+
+            eval_item = EvaluationItem(
+                id="item-with-justification",
+                name="Test Output Format",
+                inputs={"question": "What is the answer?"},
+                evaluation_criterias={},
+            )
+
+            await runtime.run_evaluator(
+                evaluator=evaluator,
+                execution_output=mock_execution_output,
+                eval_item=eval_item,
+                evaluation_criteria=None,
+            )
+
+        # Check Evaluation output span
+        eval_output_spans = [
+            span
+            for span in self.capturing_tracer.captured_spans
+            if span["attributes"].get("span.type") == "evalOutput"
+        ]
+
+        assert len(eval_output_spans) > 0
+        eval_output_span = eval_output_spans[0]
+
+        # Verify output attribute exists and has correct structure
+        assert "output" in eval_output_span["attributes"]
+
+        import json
+
+        output_data = json.loads(eval_output_span["attributes"]["output"])
+
+        # Check structure matches EvaluationOutputSpanOutput model
+        assert output_data["type"] == 1
+        assert "value" in output_data
+        assert output_data["value"] == 0.92
+        assert "justification" in output_data
+        assert output_data["justification"] == "The outputs are semantically equivalent"

From dc5d807ec4a4ae3a53dfd404641dbb3c843bb338 Mon Sep 17 00:00:00 2001
From: Anipik <anirudh.agnihotry@uipath.com>
Date: Fri, 9 Jan 2026 03:02:15 -0800
Subject: [PATCH 2/6] fix: resolve mypy type errors in span utils
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- Changed import from opentelemetry.sdk.trace.Span to opentelemetry.trace.Span (protocol)
- Added proper type annotations to MockSpan class
- Added None checks before accessing Status attributes (status_code, description)
- Fixed __str__ mock configuration with proper lambda signature
- Added type: ignore comments for MockSpan arg-type compatibility in tests

All mypy checks now pass with no errors.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
---
 src/uipath/_cli/_evals/_span_utils.py  |  3 +-
 tests/cli/eval/test_eval_span_utils.py | 39 +++++++++++++++-----------
 2 files changed, 24 insertions(+), 18 deletions(-)

diff --git a/src/uipath/_cli/_evals/_span_utils.py b/src/uipath/_cli/_evals/_span_utils.py
index 008b01863..181229738 100644
--- a/src/uipath/_cli/_evals/_span_utils.py
+++ b/src/uipath/_cli/_evals/_span_utils.py
@@ -3,8 +3,7 @@
 import json
 from typing import Any, Dict, Optional
 
-from opentelemetry.sdk.trace import Span
-from opentelemetry.trace import Status, StatusCode
+from opentelemetry.trace import Span, Status, StatusCode
 from pydantic import BaseModel, ConfigDict, Field
 
 # Type hint for runtime protocol (avoids circular imports)
diff --git a/tests/cli/eval/test_eval_span_utils.py b/tests/cli/eval/test_eval_span_utils.py
index dc438bb19..f264fcea5 100644
--- a/tests/cli/eval/test_eval_span_utils.py
+++ b/tests/cli/eval/test_eval_span_utils.py
@@ -1,7 +1,7 @@
 """Unit tests for evaluation span utility functions."""
 
 import json
-from typing import Any
+from typing import Any, Dict, Optional
 from unittest.mock import MagicMock
 
 import pytest
@@ -24,9 +24,9 @@
 class MockSpan:
     """Mock span for testing."""
 
-    def __init__(self):
-        self.attributes = {}
-        self._status = None
+    def __init__(self) -> None:
+        self.attributes: Dict[str, Any] = {}
+        self._status: Optional[Status] = None
 
     def set_attribute(self, key: str, value: Any) -> None:
         self.attributes[key] = value
@@ -135,7 +135,7 @@ def test_set_eval_set_run_output_and_metadata(self):
         span = MockSpan()
 
         set_eval_set_run_output_and_metadata(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             overall_score=82.5,
             execution_id="exec-123",
             input_schema={"type": "object"},
@@ -168,7 +168,7 @@ def test_set_eval_set_run_output_and_metadata_with_none_schemas(self):
         span = MockSpan()
 
         set_eval_set_run_output_and_metadata(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             overall_score=75.0,
             execution_id="exec-456",
             input_schema=None,
@@ -188,7 +188,7 @@ def test_set_evaluation_output_and_metadata(self):
         span = MockSpan()
 
         set_evaluation_output_and_metadata(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             avg_score=88.3,
             execution_id="eval-789",
             input_schema={"properties": {}},
@@ -215,7 +215,7 @@ def test_set_evaluation_output_and_metadata_with_error(self):
         span = MockSpan()
 
         set_evaluation_output_and_metadata(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             avg_score=0.0,
             execution_id="eval-error",
             input_schema={},
@@ -227,6 +227,7 @@ def test_set_evaluation_output_and_metadata_with_error(self):
         # Check status is ERROR
         assert span._status is not None
         assert span._status.status_code == StatusCode.ERROR
+        assert span._status.description is not None
         assert "Runtime error occurred" in span._status.description
 
     def test_set_evaluation_output_span_output_with_justification(self):
@@ -234,7 +235,7 @@ def test_set_evaluation_output_span_output_with_justification(self):
         span = MockSpan()
 
         set_evaluation_output_span_output(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             score=92.7,
             justification="The answer is correct and well-formatted",
         )
@@ -254,7 +255,7 @@ def test_set_evaluation_output_span_output_without_justification(self):
         span = MockSpan()
 
         set_evaluation_output_span_output(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             score=85.0,
             justification=None,
         )
@@ -294,7 +295,7 @@ async def mock_get_schema(runtime):
             return mock_schema
 
         await configure_eval_set_run_span(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             evaluator_averages=evaluator_averages,
             execution_id="exec-complete",
             runtime=mock_runtime,
@@ -316,6 +317,7 @@ async def mock_get_schema(runtime):
         assert input_schema_data["properties"]["x"]["type"] == "number"
 
         # Verify status
+        assert span._status is not None
         assert span._status.status_code == StatusCode.OK
 
     @pytest.mark.asyncio
@@ -330,7 +332,7 @@ async def mock_get_schema_error(runtime):
             raise Exception("Schema not found")
 
         await configure_eval_set_run_span(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             evaluator_averages=evaluator_averages,
             execution_id="exec-no-schema",
             runtime=MagicMock(),
@@ -377,7 +379,7 @@ async def mock_get_schema(runtime):
         mock_agent_output.result.error = None
 
         await configure_evaluation_span(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-complete",
             runtime=mock_runtime,
@@ -393,6 +395,7 @@ async def mock_get_schema(runtime):
         assert span.attributes["agentId"] == "eval-complete"
 
         # Verify status is OK (no error)
+        assert span._status is not None
         assert span._status.status_code == StatusCode.OK
 
     @pytest.mark.asyncio
@@ -414,11 +417,12 @@ async def mock_get_schema(runtime):
         # Mock agent execution output with error
         mock_agent_output = MagicMock()
         mock_error = MagicMock()
-        mock_error.__str__ = lambda self: "Agent failed"
+        # Configure __str__ to return "Agent failed"
+        mock_error.configure_mock(__str__=lambda self: "Agent failed")
         mock_agent_output.result.error = mock_error
 
         await configure_evaluation_span(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-error",
             runtime=mock_runtime,
@@ -427,7 +431,9 @@ async def mock_get_schema(runtime):
         )
 
         # Verify status is ERROR
+        assert span._status is not None
         assert span._status.status_code == StatusCode.ERROR
+        assert span._status.description is not None
         assert "Agent failed" in span._status.description
 
     @pytest.mark.asyncio
@@ -450,7 +456,7 @@ async def mock_get_schema(runtime):
             return mock_schema
 
         await configure_evaluation_span(
-            span=span,
+            span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-no-output",
             runtime=mock_runtime,
@@ -459,4 +465,5 @@ async def mock_get_schema(runtime):
         )
 
         # Verify it doesn't crash and sets OK status
+        assert span._status is not None
         assert span._status.status_code == StatusCode.OK

From 35284b7b7afe25dd4ab01e32e2dc0ed20c508b2a Mon Sep 17 00:00:00 2001
From: Anipik <anirudh.agnihotry@uipath.com>
Date: Fri, 9 Jan 2026 11:02:35 -0800
Subject: [PATCH 3/6] fix: bump the version

---
 pyproject.toml | 2 +-
 uv.lock        | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index be3de0371..1c96ed3fb 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "uipath"
-version = "2.4.8"
+version = "2.4.9"
 description = "Python SDK and CLI for UiPath Platform, enabling programmatic interaction with automation services, process management, and deployment tools."
 readme = { file = "README.md", content-type = "text/markdown" }
 requires-python = ">=3.11"
diff --git a/uv.lock b/uv.lock
index a09bdaeb8..b05733321 100644
--- a/uv.lock
+++ b/uv.lock
@@ -2486,7 +2486,7 @@ wheels = [
 
 [[package]]
 name = "uipath"
-version = "2.4.8"
+version = "2.4.9"
 source = { editable = "." }
 dependencies = [
     { name = "applicationinsights" },

From c400a5285b94160b6525aebdaa1d53a3426fb76c Mon Sep 17 00:00:00 2001
From: Anipik <anirudh.agnihotry@uipath.com>
Date: Fri, 9 Jan 2026 11:33:13 -0800
Subject: [PATCH 4/6] feat: add input and evaluatorId

---
 src/uipath/_cli/_evals/_runtime.py            |  2 +
 src/uipath/_cli/_evals/_span_utils.py         | 30 +++++-
 tests/cli/eval/test_eval_span_utils.py        | 98 +++++++++++++++++--
 .../cli/eval/test_eval_tracing_integration.py |  4 +-
 4 files changed, 117 insertions(+), 17 deletions(-)

diff --git a/src/uipath/_cli/_evals/_runtime.py b/src/uipath/_cli/_evals/_runtime.py
index 3447378fd..839729569 100644
--- a/src/uipath/_cli/_evals/_runtime.py
+++ b/src/uipath/_cli/_evals/_runtime.py
@@ -606,6 +606,7 @@ async def _execute_eval(
                 execution_id=execution_id,
                 runtime=runtime,
                 get_schema_func=self.get_schema,
+                input_data=eval_item.inputs,
                 agent_execution_output=agent_execution_output
                 if "agent_execution_output" in locals()
                 else None,
@@ -813,6 +814,7 @@ async def run_evaluator(
                 set_evaluation_output_span_output(
                     span=span,
                     score=result.score,
+                    evaluator_id=evaluator.id,
                     justification=justification,
                 )
 
diff --git a/src/uipath/_cli/_evals/_span_utils.py b/src/uipath/_cli/_evals/_span_utils.py
index 181229738..da5dde34e 100644
--- a/src/uipath/_cli/_evals/_span_utils.py
+++ b/src/uipath/_cli/_evals/_span_utils.py
@@ -36,6 +36,7 @@ class EvaluationOutputSpanOutput(BaseModel):
 
     type: int = Field(1, alias="type")
     value: float = Field(..., alias="value")
+    evaluator_id: Optional[str] = Field(None, alias="evaluatorId")
     justification: Optional[str] = Field(None, alias="justification")
 
 
@@ -119,6 +120,7 @@ def set_evaluation_output_and_metadata(
     execution_id: str,
     input_schema: Optional[Dict[str, Any]],
     output_schema: Optional[Dict[str, Any]],
+    input_data: Optional[Dict[str, Any]] = None,
     has_error: bool = False,
     error_message: Optional[str] = None,
 ) -> None:
@@ -130,6 +132,7 @@ def set_evaluation_output_and_metadata(
         execution_id: The execution ID for this evaluation
         input_schema: The input schema from the runtime
         output_schema: The output schema from the runtime
+        input_data: The input data for this evaluation
         has_error: Whether the evaluation had an error
         error_message: Optional error message if has_error is True
     """
@@ -137,6 +140,13 @@ def set_evaluation_output_and_metadata(
     output = EvaluationOutput(score=int(avg_score))
     span.set_attribute("output", output.model_dump_json(by_alias=True))
 
+    # Set input data if provided
+    if input_data is not None:
+        try:
+            span.set_attribute("input", json.dumps(input_data))
+        except (TypeError, ValueError):
+            span.set_attribute("input", json.dumps({}))
+
     # Set metadata attributes
     span.set_attribute("agentId", execution_id)
     span.set_attribute("agentName", "N/A")
@@ -162,6 +172,7 @@ def set_evaluation_output_and_metadata(
 def set_evaluation_output_span_output(
     span: Span,
     score: float,
+    evaluator_id: Optional[str] = None,
     justification: Optional[str] = None,
 ) -> None:
     """Set output attribute for Evaluation output span.
@@ -169,11 +180,13 @@ def set_evaluation_output_span_output(
     Args:
         span: The OpenTelemetry span to set attributes on
         score: The evaluation score
+        evaluator_id: The ID of the evaluator that produced this score
         justification: Optional justification text for the score
     """
     # Set output using Pydantic model
     output = EvaluationOutputSpanOutput(
         value=score,
+        evaluator_id=evaluator_id,
         justification=justification,
     )
     span.set_attribute(
@@ -213,8 +226,8 @@ async def configure_eval_set_run_span(
     # Get runtime schemas
     try:
         schema = await get_schema_func(runtime)
-        input_schema = schema.input_schema
-        output_schema = schema.output_schema
+        input_schema = schema.input
+        output_schema = schema.output
     except Exception:
         input_schema = None
         output_schema = None
@@ -236,6 +249,7 @@ async def configure_evaluation_span(
     execution_id: str,
     runtime: Any,
     get_schema_func: Any,
+    input_data: Optional[Dict[str, Any]] = None,
     agent_execution_output: Optional[Any] = None,
 ) -> None:
     """Configure Evaluation span with output and metadata.
@@ -252,6 +266,7 @@ async def configure_evaluation_span(
         execution_id: The execution ID for this evaluation
         runtime: The runtime instance
         get_schema_func: Async function to get schema from runtime
+        input_data: The input data for this evaluation
         agent_execution_output: Optional agent execution output for error checking
     """
     # Calculate average score
@@ -260,9 +275,13 @@ async def configure_evaluation_span(
     # Get runtime schemas
     try:
         schema = await get_schema_func(runtime)
-        input_schema = schema.input_schema
-        output_schema = schema.output_schema
-    except Exception:
+        input_schema = schema.input
+        output_schema = schema.output
+    except Exception as e:
+        # Log the error for debugging
+        import logging
+
+        logging.warning(f"Failed to get schema for evaluation span: {e}")
         input_schema = None
         output_schema = None
 
@@ -284,6 +303,7 @@ async def configure_evaluation_span(
         execution_id=execution_id,
         input_schema=input_schema,
         output_schema=output_schema,
+        input_data=input_data,
         has_error=has_error,
         error_message=error_message,
     )
diff --git a/tests/cli/eval/test_eval_span_utils.py b/tests/cli/eval/test_eval_span_utils.py
index f264fcea5..0fb09ca6c 100644
--- a/tests/cli/eval/test_eval_span_utils.py
+++ b/tests/cli/eval/test_eval_span_utils.py
@@ -59,23 +59,27 @@ def test_evaluation_output_model(self):
     def test_evaluation_output_span_output_model_with_justification(self):
         """Test EvaluationOutputSpanOutput model with justification."""
         output = EvaluationOutputSpanOutput(
-            value=75.5, justification="The output is semantically similar"
+            value=75.5,
+            evaluator_id="eval-123",
+            justification="The output is semantically similar",
         )
         json_str = output.model_dump_json(by_alias=True, exclude_none=True)
         data = json.loads(json_str)
 
         assert data["type"] == 1
         assert data["value"] == 75.5
+        assert data["evaluatorId"] == "eval-123"
         assert data["justification"] == "The output is semantically similar"
 
     def test_evaluation_output_span_output_model_without_justification(self):
         """Test EvaluationOutputSpanOutput model without justification."""
-        output = EvaluationOutputSpanOutput(value=75.5)
+        output = EvaluationOutputSpanOutput(value=75.5, evaluator_id="eval-456")
         json_str = output.model_dump_json(by_alias=True, exclude_none=True)
         data = json.loads(json_str)
 
         assert data["type"] == 1
         assert data["value"] == 75.5
+        assert data["evaluatorId"] == "eval-456"
         assert "justification" not in data
 
 
@@ -237,6 +241,7 @@ def test_set_evaluation_output_span_output_with_justification(self):
         set_evaluation_output_span_output(
             span=span,  # type: ignore[arg-type]
             score=92.7,
+            evaluator_id="evaluator-xyz",
             justification="The answer is correct and well-formatted",
         )
 
@@ -246,6 +251,7 @@ def test_set_evaluation_output_span_output_with_justification(self):
 
         assert output_data["type"] == 1
         assert output_data["value"] == 92.7
+        assert output_data["evaluatorId"] == "evaluator-xyz"
         assert (
             output_data["justification"] == "The answer is correct and well-formatted"
         )
@@ -257,6 +263,7 @@ def test_set_evaluation_output_span_output_without_justification(self):
         set_evaluation_output_span_output(
             span=span,  # type: ignore[arg-type]
             score=85.0,
+            evaluator_id="evaluator-abc",
             justification=None,
         )
 
@@ -266,6 +273,7 @@ def test_set_evaluation_output_span_output_without_justification(self):
 
         assert output_data["type"] == 1
         assert output_data["value"] == 85.0
+        assert output_data["evaluatorId"] == "evaluator-abc"
         assert "justification" not in output_data
 
 
@@ -285,11 +293,11 @@ async def test_configure_eval_set_run_span(self):
         # Mock runtime and get_schema_func
         mock_runtime = MagicMock()
         mock_schema = MagicMock()
-        mock_schema.input_schema = {
+        mock_schema.input = {
             "type": "object",
             "properties": {"x": {"type": "number"}},
         }
-        mock_schema.output_schema = {"type": "string"}
+        mock_schema.output = {"type": "string"}
 
         async def mock_get_schema(runtime):
             return mock_schema
@@ -368,8 +376,8 @@ async def test_configure_evaluation_span(self):
         # Mock runtime and schema
         mock_runtime = MagicMock()
         mock_schema = MagicMock()
-        mock_schema.input_schema = {"type": "object"}
-        mock_schema.output_schema = {"type": "object"}
+        mock_schema.input = {"type": "object"}
+        mock_schema.output = {"type": "object"}
 
         async def mock_get_schema(runtime):
             return mock_schema
@@ -410,8 +418,8 @@ async def test_configure_evaluation_span_with_error(self):
 
         async def mock_get_schema(runtime):
             mock_schema = MagicMock()
-            mock_schema.input_schema = {}
-            mock_schema.output_schema = {}
+            mock_schema.input = {}
+            mock_schema.output = {}
             return mock_schema
 
         # Mock agent execution output with error
@@ -451,8 +459,8 @@ async def test_configure_evaluation_span_without_agent_output(self):
 
         async def mock_get_schema(runtime):
             mock_schema = MagicMock()
-            mock_schema.input_schema = {}
-            mock_schema.output_schema = {}
+            mock_schema.input = {}
+            mock_schema.output = {}
             return mock_schema
 
         await configure_evaluation_span(
@@ -467,3 +475,73 @@ async def mock_get_schema(runtime):
         # Verify it doesn't crash and sets OK status
         assert span._status is not None
         assert span._status.status_code == StatusCode.OK
+
+    @pytest.mark.asyncio
+    async def test_configure_evaluation_span_with_input_data(self):
+        """Test configuring evaluation span with input data."""
+        span = MockSpan()
+
+        mock_result = MagicMock()
+        mock_result.result.score = 75.0
+
+        mock_evaluation_run_results = MagicMock()
+        mock_evaluation_run_results.evaluation_run_results = [mock_result]
+
+        mock_runtime = MagicMock()
+
+        async def mock_get_schema(runtime):
+            mock_schema = MagicMock()
+            mock_schema.input = {"type": "object"}
+            mock_schema.output = {"type": "object"}
+            return mock_schema
+
+        input_data = {"a": 5, "b": 3, "operator": "+"}
+
+        await configure_evaluation_span(
+            span=span,  # type: ignore[arg-type]
+            evaluation_run_results=mock_evaluation_run_results,
+            execution_id="eval-with-input",
+            runtime=mock_runtime,
+            get_schema_func=mock_get_schema,
+            input_data=input_data,
+            agent_execution_output=None,
+        )
+
+        # Verify input data is set
+        assert "input" in span.attributes
+        input_data_parsed = json.loads(span.attributes["input"])
+        assert input_data_parsed == {"a": 5, "b": 3, "operator": "+"}
+
+        # Verify other attributes are also set
+        assert "output" in span.attributes
+        assert span.attributes["agentId"] == "eval-with-input"
+        assert span._status is not None
+        assert span._status.status_code == StatusCode.OK
+
+    def test_set_evaluation_output_and_metadata_with_input_data(self):
+        """Test setting evaluation span attributes with input data."""
+        span = MockSpan()
+
+        input_data = {"query": "test", "context": "example"}
+
+        set_evaluation_output_and_metadata(
+            span=span,  # type: ignore[arg-type]
+            avg_score=92.0,
+            execution_id="eval-input-test",
+            input_schema={"type": "object"},
+            output_schema={"type": "string"},
+            input_data=input_data,
+            has_error=False,
+        )
+
+        # Verify input is set
+        assert "input" in span.attributes
+        input_parsed = json.loads(span.attributes["input"])
+        assert input_parsed == {"query": "test", "context": "example"}
+
+        # Verify output is set
+        output_data = json.loads(span.attributes["output"])
+        assert output_data == {"score": 92}
+
+        # Verify other attributes
+        assert span.attributes["agentId"] == "eval-input-test"
diff --git a/tests/cli/eval/test_eval_tracing_integration.py b/tests/cli/eval/test_eval_tracing_integration.py
index cbf258741..c50bcf133 100644
--- a/tests/cli/eval/test_eval_tracing_integration.py
+++ b/tests/cli/eval/test_eval_tracing_integration.py
@@ -788,11 +788,11 @@ async def test_evaluation_span_has_metadata_attributes(
         # Mock the runtime
         mock_runtime = AsyncMock()
         mock_schema = MagicMock()
-        mock_schema.input_schema = {
+        mock_schema.input = {
             "type": "object",
             "properties": {"x": {"type": "number"}},
         }
-        mock_schema.output_schema = {"type": "string"}
+        mock_schema.output = {"type": "string"}
         mock_runtime.get_schema = AsyncMock(return_value=mock_schema)
         mock_factory.new_runtime = AsyncMock(return_value=mock_runtime)
 

From 2899544fc8119ba8df6c451d7982dfeebc7f7f15 Mon Sep 17 00:00:00 2001
From: Anipik <anirudh.agnihotry@uipath.com>
Date: Fri, 9 Jan 2026 11:50:40 -0800
Subject: [PATCH 5/6] fix: remove schemas from evaluation

---
 src/uipath/_cli/_evals/_runtime.py            |  2 -
 src/uipath/_cli/_evals/_span_utils.py         | 35 --------------
 tests/cli/eval/test_eval_span_utils.py        | 47 -------------------
 .../cli/eval/test_eval_tracing_integration.py | 15 ++----
 4 files changed, 3 insertions(+), 96 deletions(-)

diff --git a/src/uipath/_cli/_evals/_runtime.py b/src/uipath/_cli/_evals/_runtime.py
index 839729569..60202d12d 100644
--- a/src/uipath/_cli/_evals/_runtime.py
+++ b/src/uipath/_cli/_evals/_runtime.py
@@ -604,8 +604,6 @@ async def _execute_eval(
                 span=span,
                 evaluation_run_results=evaluation_run_results,
                 execution_id=execution_id,
-                runtime=runtime,
-                get_schema_func=self.get_schema,
                 input_data=eval_item.inputs,
                 agent_execution_output=agent_execution_output
                 if "agent_execution_output" in locals()
diff --git a/src/uipath/_cli/_evals/_span_utils.py b/src/uipath/_cli/_evals/_span_utils.py
index da5dde34e..d163fd6b3 100644
--- a/src/uipath/_cli/_evals/_span_utils.py
+++ b/src/uipath/_cli/_evals/_span_utils.py
@@ -118,8 +118,6 @@ def set_evaluation_output_and_metadata(
     span: Span,
     avg_score: float,
     execution_id: str,
-    input_schema: Optional[Dict[str, Any]],
-    output_schema: Optional[Dict[str, Any]],
     input_data: Optional[Dict[str, Any]] = None,
     has_error: bool = False,
     error_message: Optional[str] = None,
@@ -130,8 +128,6 @@ def set_evaluation_output_and_metadata(
         span: The OpenTelemetry span to set attributes on
         avg_score: The average score for this evaluation across all evaluators
         execution_id: The execution ID for this evaluation
-        input_schema: The input schema from the runtime
-        output_schema: The output schema from the runtime
         input_data: The input data for this evaluation
         has_error: Whether the evaluation had an error
         error_message: Optional error message if has_error is True
@@ -151,17 +147,6 @@ def set_evaluation_output_and_metadata(
     span.set_attribute("agentId", execution_id)
     span.set_attribute("agentName", "N/A")
 
-    # Safely serialize schemas to JSON
-    try:
-        span.set_attribute("inputSchema", json.dumps(input_schema or {}))
-    except (TypeError, ValueError):
-        span.set_attribute("inputSchema", json.dumps({}))
-
-    try:
-        span.set_attribute("outputSchema", json.dumps(output_schema or {}))
-    except (TypeError, ValueError):
-        span.set_attribute("outputSchema", json.dumps({}))
-
     # Set span status based on success
     if has_error and error_message:
         span.set_status(Status(StatusCode.ERROR, error_message))
@@ -247,8 +232,6 @@ async def configure_evaluation_span(
     span: Span,
     evaluation_run_results: Any,
     execution_id: str,
-    runtime: Any,
-    get_schema_func: Any,
     input_data: Optional[Dict[str, Any]] = None,
     agent_execution_output: Optional[Any] = None,
 ) -> None:
@@ -256,7 +239,6 @@ async def configure_evaluation_span(
 
     This high-level function handles:
     - Calculating average score from evaluation results
-    - Getting runtime schemas
     - Determining error status
     - Setting all span attributes
 
@@ -264,27 +246,12 @@ async def configure_evaluation_span(
         span: The OpenTelemetry span to configure
         evaluation_run_results: EvaluationRunResult object containing evaluation results
         execution_id: The execution ID for this evaluation
-        runtime: The runtime instance
-        get_schema_func: Async function to get schema from runtime
         input_data: The input data for this evaluation
         agent_execution_output: Optional agent execution output for error checking
     """
     # Calculate average score
     avg_score = calculate_evaluation_average_score(evaluation_run_results)
 
-    # Get runtime schemas
-    try:
-        schema = await get_schema_func(runtime)
-        input_schema = schema.input
-        output_schema = schema.output
-    except Exception as e:
-        # Log the error for debugging
-        import logging
-
-        logging.warning(f"Failed to get schema for evaluation span: {e}")
-        input_schema = None
-        output_schema = None
-
     # Determine error status
     has_error = False
     error_message = None
@@ -301,8 +268,6 @@ async def configure_evaluation_span(
         span=span,
         avg_score=avg_score,
         execution_id=execution_id,
-        input_schema=input_schema,
-        output_schema=output_schema,
         input_data=input_data,
         has_error=has_error,
         error_message=error_message,
diff --git a/tests/cli/eval/test_eval_span_utils.py b/tests/cli/eval/test_eval_span_utils.py
index 0fb09ca6c..7557861aa 100644
--- a/tests/cli/eval/test_eval_span_utils.py
+++ b/tests/cli/eval/test_eval_span_utils.py
@@ -195,8 +195,6 @@ def test_set_evaluation_output_and_metadata(self):
             span=span,  # type: ignore[arg-type]
             avg_score=88.3,
             execution_id="eval-789",
-            input_schema={"properties": {}},
-            output_schema={"properties": {}},
             has_error=False,
             error_message=None,
         )
@@ -222,8 +220,6 @@ def test_set_evaluation_output_and_metadata_with_error(self):
             span=span,  # type: ignore[arg-type]
             avg_score=0.0,
             execution_id="eval-error",
-            input_schema={},
-            output_schema={},
             has_error=True,
             error_message="Runtime error occurred",
         )
@@ -373,15 +369,6 @@ async def test_configure_evaluation_span(self):
             mock_result2,
         ]
 
-        # Mock runtime and schema
-        mock_runtime = MagicMock()
-        mock_schema = MagicMock()
-        mock_schema.input = {"type": "object"}
-        mock_schema.output = {"type": "object"}
-
-        async def mock_get_schema(runtime):
-            return mock_schema
-
         # Mock agent execution output (no error)
         mock_agent_output = MagicMock()
         mock_agent_output.result.error = None
@@ -390,8 +377,6 @@ async def mock_get_schema(runtime):
             span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-complete",
-            runtime=mock_runtime,
-            get_schema_func=mock_get_schema,
             agent_execution_output=mock_agent_output,
         )
 
@@ -414,14 +399,6 @@ async def test_configure_evaluation_span_with_error(self):
         mock_evaluation_run_results = MagicMock()
         mock_evaluation_run_results.evaluation_run_results = []
 
-        mock_runtime = MagicMock()
-
-        async def mock_get_schema(runtime):
-            mock_schema = MagicMock()
-            mock_schema.input = {}
-            mock_schema.output = {}
-            return mock_schema
-
         # Mock agent execution output with error
         mock_agent_output = MagicMock()
         mock_error = MagicMock()
@@ -433,8 +410,6 @@ async def mock_get_schema(runtime):
             span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-error",
-            runtime=mock_runtime,
-            get_schema_func=mock_get_schema,
             agent_execution_output=mock_agent_output,
         )
 
@@ -455,20 +430,10 @@ async def test_configure_evaluation_span_without_agent_output(self):
         mock_evaluation_run_results = MagicMock()
         mock_evaluation_run_results.evaluation_run_results = [mock_result]
 
-        mock_runtime = MagicMock()
-
-        async def mock_get_schema(runtime):
-            mock_schema = MagicMock()
-            mock_schema.input = {}
-            mock_schema.output = {}
-            return mock_schema
-
         await configure_evaluation_span(
             span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-no-output",
-            runtime=mock_runtime,
-            get_schema_func=mock_get_schema,
             agent_execution_output=None,
         )
 
@@ -487,22 +452,12 @@ async def test_configure_evaluation_span_with_input_data(self):
         mock_evaluation_run_results = MagicMock()
         mock_evaluation_run_results.evaluation_run_results = [mock_result]
 
-        mock_runtime = MagicMock()
-
-        async def mock_get_schema(runtime):
-            mock_schema = MagicMock()
-            mock_schema.input = {"type": "object"}
-            mock_schema.output = {"type": "object"}
-            return mock_schema
-
         input_data = {"a": 5, "b": 3, "operator": "+"}
 
         await configure_evaluation_span(
             span=span,  # type: ignore[arg-type]
             evaluation_run_results=mock_evaluation_run_results,
             execution_id="eval-with-input",
-            runtime=mock_runtime,
-            get_schema_func=mock_get_schema,
             input_data=input_data,
             agent_execution_output=None,
         )
@@ -528,8 +483,6 @@ def test_set_evaluation_output_and_metadata_with_input_data(self):
             span=span,  # type: ignore[arg-type]
             avg_score=92.0,
             execution_id="eval-input-test",
-            input_schema={"type": "object"},
-            output_schema={"type": "string"},
             input_data=input_data,
             has_error=False,
         )
diff --git a/tests/cli/eval/test_eval_tracing_integration.py b/tests/cli/eval/test_eval_tracing_integration.py
index c50bcf133..3a9cf3d33 100644
--- a/tests/cli/eval/test_eval_tracing_integration.py
+++ b/tests/cli/eval/test_eval_tracing_integration.py
@@ -840,18 +840,9 @@ async def test_evaluation_span_has_metadata_attributes(
         assert "agentName" in eval_span["attributes"]
         assert eval_span["attributes"]["agentName"] == "N/A"
 
-        # Check inputSchema
-        assert "inputSchema" in eval_span["attributes"]
-        import json
-
-        input_schema = json.loads(eval_span["attributes"]["inputSchema"])
-        assert input_schema["type"] == "object"
-        assert "properties" in input_schema
-
-        # Check outputSchema
-        assert "outputSchema" in eval_span["attributes"]
-        output_schema = json.loads(eval_span["attributes"]["outputSchema"])
-        assert output_schema["type"] == "string"
+        # Schemas are not included in Evaluation span (only in Evaluation Set Run span)
+        assert "inputSchema" not in eval_span["attributes"]
+        assert "outputSchema" not in eval_span["attributes"]
 
     @pytest.mark.asyncio
     async def test_evaluation_output_span_has_output_with_type_and_value(

From 3325cd3f12d0f10715f51419eb8c7fa583df3982 Mon Sep 17 00:00:00 2001
From: Anipik <anirudh.agnihotry@uipath.com>
Date: Fri, 9 Jan 2026 11:53:42 -0800
Subject: [PATCH 6/6] fix: the rendering of schemas in evaluation set run span

---
 src/uipath/_cli/_evals/_span_utils.py | 42 +++++++++++++++------------
 1 file changed, 24 insertions(+), 18 deletions(-)

diff --git a/src/uipath/_cli/_evals/_span_utils.py b/src/uipath/_cli/_evals/_span_utils.py
index d163fd6b3..7c99729b7 100644
--- a/src/uipath/_cli/_evals/_span_utils.py
+++ b/src/uipath/_cli/_evals/_span_utils.py
@@ -90,24 +90,30 @@ def set_eval_set_run_output_and_metadata(
         output_schema: The output schema from the runtime
         success: Whether the evaluation set run was successful
     """
-    # Set span output with overall score using Pydantic model
+    # Set span output with overall score using Pydantic model (formatted for UI rendering)
     output = EvalSetRunOutput(score=int(overall_score))
-    span.set_attribute("output", output.model_dump_json(by_alias=True))
+    span.set_attribute("output", output.model_dump_json(by_alias=True, indent=2))
 
     # Set metadata attributes
     span.set_attribute("agentId", execution_id)
     span.set_attribute("agentName", "N/A")
 
-    # Safely serialize schemas to JSON
-    try:
-        span.set_attribute("inputSchema", json.dumps(input_schema or {}))
-    except (TypeError, ValueError):
-        span.set_attribute("inputSchema", json.dumps({}))
+    # Set schemas as formatted JSON strings for proper rendering in UI
+    if input_schema:
+        try:
+            span.set_attribute("inputSchema", json.dumps(input_schema, indent=2))
+        except (TypeError, ValueError):
+            span.set_attribute("inputSchema", "{}")
+    else:
+        span.set_attribute("inputSchema", "{}")
 
-    try:
-        span.set_attribute("outputSchema", json.dumps(output_schema or {}))
-    except (TypeError, ValueError):
-        span.set_attribute("outputSchema", json.dumps({}))
+    if output_schema:
+        try:
+            span.set_attribute("outputSchema", json.dumps(output_schema, indent=2))
+        except (TypeError, ValueError):
+            span.set_attribute("outputSchema", "{}")
+    else:
+        span.set_attribute("outputSchema", "{}")
 
     # Set span status
     if success:
@@ -132,16 +138,16 @@ def set_evaluation_output_and_metadata(
         has_error: Whether the evaluation had an error
         error_message: Optional error message if has_error is True
     """
-    # Set span output with average score using Pydantic model
+    # Set span output with average score using Pydantic model (formatted for UI rendering)
     output = EvaluationOutput(score=int(avg_score))
-    span.set_attribute("output", output.model_dump_json(by_alias=True))
+    span.set_attribute("output", output.model_dump_json(by_alias=True, indent=2))
 
-    # Set input data if provided
+    # Set input data if provided (formatted JSON for UI rendering)
     if input_data is not None:
         try:
-            span.set_attribute("input", json.dumps(input_data))
+            span.set_attribute("input", json.dumps(input_data, indent=2))
         except (TypeError, ValueError):
-            span.set_attribute("input", json.dumps({}))
+            span.set_attribute("input", "{}")
 
     # Set metadata attributes
     span.set_attribute("agentId", execution_id)
@@ -168,14 +174,14 @@ def set_evaluation_output_span_output(
         evaluator_id: The ID of the evaluator that produced this score
         justification: Optional justification text for the score
     """
-    # Set output using Pydantic model
+    # Set output using Pydantic model (formatted for UI rendering)
     output = EvaluationOutputSpanOutput(
         value=score,
         evaluator_id=evaluator_id,
         justification=justification,
     )
     span.set_attribute(
-        "output", output.model_dump_json(by_alias=True, exclude_none=True)
+        "output", output.model_dump_json(by_alias=True, exclude_none=True, indent=2)
     )