12 Métricas de Fiabilidad de Agentes IA

Los agentes IA no están fallando por falta de capacidad. Están fallando por falta de fiabilidad. Las puntuaciones de precisión siguen subiendo. Los despliegues en el mundo real siguen rompiéndose. Investigadores de Princeton identificaron doce métricas concretas. La precisión no las mide y no puede sustituirlas.

Cuatro dimensiones. Doce métricas. Un marco para desplegar agentes en los que realmente puedas confiar.

Fuente: Rabanser et al., Princeton University - arxiv:2602.16666

Dimensión I

Consistencia

¿Se comporta el sistema de la misma manera cuando se ejecuta múltiples veces bajo las mismas condiciones?

MÉTRICA #01

Consistencia de Resultado

Qué Mide

¿Llega el agente a la misma respuesta final cuando se le da la misma tarea múltiples veces? No cómo llega allí, sino si el destino es el mismo.

Por Qué Importa

Un agente que da diferentes respuestas a la misma pregunta no es útil, sin importar cuán "correcta" sea cada respuesta individual. Resultados inconsistentes destruyen la confianza y hacen imposible la planificación.

Señales de Alerta

Resultados diferentes en ejecuciones repetidas de la misma tarea
Dependencia de estados aleatorios o parámetros de temperatura
Usuarios que ejecutan la misma consulta múltiples veces "para estar seguros"

MÉTRICA #02

Consistencia de Trayectoria

Qué Mide

¿Toma el agente el mismo camino para llegar al resultado? No solo el destino, sino el viaje: la secuencia de pasos, llamadas a herramientas, decisiones intermedias.

Por Qué Importa

El mismo resultado por diferentes caminos puede ocultar problemas. Una ruta podría ser eficiente, otra podría ser frágil. La consistencia de trayectoria revela si tu agente tiene una estrategia estable o solo tiene suerte.

MÉTRICA #03

Consistencia de Razonamiento

Qué Mide

¿Es estable el razonamiento interno del agente? Dado el mismo contexto, ¿produce los mismos patrones de pensamiento, las mismas interpretaciones, las mismas evaluaciones?

Por Qué Importa

El razonamiento inconsistente significa que tu agente está fundamentalmente adivinando, incluso si las respuestas resultan correctas. Buenas respuestas de mal razonamiento no escalan.

Dimensión II

Robustez

¿Funciona el sistema cuando las condiciones cambian de formas que no deberían importar?

MÉTRICA #04

Robustez de Entrada

Qué Mide

¿Se mantiene el rendimiento cuando la entrada varía de formas que no deberían afectar la respuesta? Parafraseo, errores tipográficos, formatos diferentes, ruido irrelevante.

Por Qué Importa

Los usuarios reales no escriben prompts perfectos. Si tu agente se rompe ante variaciones menores, se romperá en producción.

MÉTRICA #05

Robustez de Entorno

Qué Mide

¿Se mantiene el rendimiento cuando el entorno externo cambia? Diferentes APIs, orden de datos cambiado, recursos no disponibles temporalmente.

Por Qué Importa

El mundo real no se queda quieto. Los sistemas de los que depende tu agente cambiarán sin previo aviso. Los agentes que asumen estabilidad fallarán cuando la estabilidad desaparezca.

MÉTRICA #06

Robustez de Contexto

Qué Mide

¿Se mantiene el rendimiento cuando la información contextual varía o está incompleta? Historial de chat faltante, instrucciones del sistema diferentes, contexto parcial.

Por Qué Importa

El contexto se pierde. Las ventanas de chat se compactan. Las instrucciones del sistema se modifican. Los agentes que dependen de contexto perfecto son agentes que esperan fallar.

Dimensión III

Previsibilidad

¿Puede el sistema comunicar precisamente lo que hará y lo que no hará?

MÉTRICA #07

Calibración

Qué Mide

¿Coincide la confianza del agente con su precisión real? Cuando dice que está 90% seguro, ¿acierta el 90% del tiempo?

Por Qué Importa

Un agente sobreconfiado te engañará con errores seguros. Un agente subconfiado desperdiciará tu tiempo con incertidumbre innecesaria. La calibración correcta permite la confianza apropiada.

MÉTRICA #08

Acotación de Capacidad

Qué Mide

¿Sabe el agente lo que no puede hacer? ¿Puede distinguir de forma fiable las tareas dentro de sus límites de aquellas fuera de ellos?

Por Qué Importa

El fracaso más peligroso es no saber que estás fallando. Los agentes que intentan tareas que no pueden manejar crean caos. Los agentes que conocen sus límites pueden escalar a humanos.

MÉTRICA #09

Explicabilidad

Qué Mide

¿Puede el agente explicar su razonamiento y acciones de una manera que los humanos puedan entender y verificar?

Por Qué Importa

Un agente que no puede explicarse es un agente en el que no puedes confiar. La explicabilidad no es para el agente, es para los humanos que necesitan auditarlo.

Dimensión IV

Seguridad

¿Evita el sistema causar daño incluso cuando falla?

MÉTRICA #10

Degradación Elegante

Qué Mide

¿Falla el agente de forma segura? Cuando algo sale mal, ¿minimiza el daño, preserva las opciones y comunica claramente?

Por Qué Importa

Los agentes fallarán. La pregunta es cómo. Fallos catastróficos destruyen meses de trabajo. Degradación elegante preserva valor y opciones.

MÉTRICA #11

Contención de Riesgo

Qué Mide

¿Contiene el agente acciones arriesgadas? ¿Evita acciones irreversibles sin aprobación? ¿Mantiene supervisión humana donde importa?

Por Qué Importa

La autonomía sin contención es imprudencia. Un agente que puede actuar sin supervisión en asuntos de alto riesgo es una bomba esperando.

MÉTRICA #12

Seguridad en Secuencia

Qué Mide

En secuencias de múltiples pasos, ¿mantiene la seguridad a lo largo de toda la cadena? ¿Se pueden componer pasos seguros en secuencias peligrosas?

Por Qué Importa

Acciones individuales pueden ser seguras mientras las secuencias son peligrosas. La seguridad debe ser holística, no solo a nivel de acción.