Los agentes IA no están fallando por falta de capacidad. Están fallando por falta de fiabilidad.
Las puntuaciones de precisión siguen subiendo. Los despliegues en el mundo real siguen rompiéndose.
Investigadores de Princeton identificaron doce métricas concretas. La precisión no las mide y no puede sustituirlas.
Cuatro dimensiones. Doce métricas. Un marco para desplegar agentes en los que realmente puedas confiar.
Dimensión I
Consistencia
¿Se comporta el sistema de la misma manera cuando se ejecuta múltiples veces bajo las mismas condiciones?
MÉTRICA #01
Consistencia de Resultado
Qué Mide
¿Llega el agente a la misma respuesta final cuando se le da la misma tarea múltiples veces? No cómo llega allí, sino si el destino es el mismo.
Por Qué Importa
Un agente que da diferentes respuestas a la misma pregunta no es útil, sin importar cuán "correcta" sea cada respuesta individual. Resultados inconsistentes destruyen la confianza y hacen imposible la planificación.
Señales de Alerta
- Resultados diferentes en ejecuciones repetidas de la misma tarea
- Dependencia de estados aleatorios o parámetros de temperatura
- Usuarios que ejecutan la misma consulta múltiples veces "para estar seguros"
MÉTRICA #02
Consistencia de Trayectoria
Qué Mide
¿Toma el agente el mismo camino para llegar al resultado? No solo el destino, sino el viaje: la secuencia de pasos, llamadas a herramientas, decisiones intermedias.
Por Qué Importa
El mismo resultado por diferentes caminos puede ocultar problemas. Una ruta podría ser eficiente, otra podría ser frágil. La consistencia de trayectoria revela si tu agente tiene una estrategia estable o solo tiene suerte.
MÉTRICA #03
Consistencia de Razonamiento
Qué Mide
¿Es estable el razonamiento interno del agente? Dado el mismo contexto, ¿produce los mismos patrones de pensamiento, las mismas interpretaciones, las mismas evaluaciones?
Por Qué Importa
El razonamiento inconsistente significa que tu agente está fundamentalmente adivinando, incluso si las respuestas resultan correctas. Buenas respuestas de mal razonamiento no escalan.
Dimensión II
Robustez
¿Funciona el sistema cuando las condiciones cambian de formas que no deberían importar?
MÉTRICA #04
Robustez de Entrada
Qué Mide
¿Se mantiene el rendimiento cuando la entrada varía de formas que no deberían afectar la respuesta? Parafraseo, errores tipográficos, formatos diferentes, ruido irrelevante.
Por Qué Importa
Los usuarios reales no escriben prompts perfectos. Si tu agente se rompe ante variaciones menores, se romperá en producción.
MÉTRICA #05
Robustez de Entorno
Qué Mide
¿Se mantiene el rendimiento cuando el entorno externo cambia? Diferentes APIs, orden de datos cambiado, recursos no disponibles temporalmente.
Por Qué Importa
El mundo real no se queda quieto. Los sistemas de los que depende tu agente cambiarán sin previo aviso. Los agentes que asumen estabilidad fallarán cuando la estabilidad desaparezca.
MÉTRICA #06
Robustez de Contexto
Qué Mide
¿Se mantiene el rendimiento cuando la información contextual varía o está incompleta? Historial de chat faltante, instrucciones del sistema diferentes, contexto parcial.
Por Qué Importa
El contexto se pierde. Las ventanas de chat se compactan. Las instrucciones del sistema se modifican. Los agentes que dependen de contexto perfecto son agentes que esperan fallar.
Dimensión III
Previsibilidad
¿Puede el sistema comunicar precisamente lo que hará y lo que no hará?
MÉTRICA #07
Calibración
Qué Mide
¿Coincide la confianza del agente con su precisión real? Cuando dice que está 90% seguro, ¿acierta el 90% del tiempo?
Por Qué Importa
Un agente sobreconfiado te engañará con errores seguros. Un agente subconfiado desperdiciará tu tiempo con incertidumbre innecesaria. La calibración correcta permite la confianza apropiada.
MÉTRICA #08
Acotación de Capacidad
Qué Mide
¿Sabe el agente lo que no puede hacer? ¿Puede distinguir de forma fiable las tareas dentro de sus límites de aquellas fuera de ellos?
Por Qué Importa
El fracaso más peligroso es no saber que estás fallando. Los agentes que intentan tareas que no pueden manejar crean caos. Los agentes que conocen sus límites pueden escalar a humanos.
MÉTRICA #09
Explicabilidad
Qué Mide
¿Puede el agente explicar su razonamiento y acciones de una manera que los humanos puedan entender y verificar?
Por Qué Importa
Un agente que no puede explicarse es un agente en el que no puedes confiar. La explicabilidad no es para el agente, es para los humanos que necesitan auditarlo.
Dimensión IV
Seguridad
¿Evita el sistema causar daño incluso cuando falla?
MÉTRICA #10
Degradación Elegante
Qué Mide
¿Falla el agente de forma segura? Cuando algo sale mal, ¿minimiza el daño, preserva las opciones y comunica claramente?
Por Qué Importa
Los agentes fallarán. La pregunta es cómo. Fallos catastróficos destruyen meses de trabajo. Degradación elegante preserva valor y opciones.
MÉTRICA #11
Contención de Riesgo
Qué Mide
¿Contiene el agente acciones arriesgadas? ¿Evita acciones irreversibles sin aprobación? ¿Mantiene supervisión humana donde importa?
Por Qué Importa
La autonomía sin contención es imprudencia. Un agente que puede actuar sin supervisión en asuntos de alto riesgo es una bomba esperando.
MÉTRICA #12
Seguridad en Secuencia
Qué Mide
En secuencias de múltiples pasos, ¿mantiene la seguridad a lo largo de toda la cadena? ¿Se pueden componer pasos seguros en secuencias peligrosas?
Por Qué Importa
Acciones individuales pueden ser seguras mientras las secuencias son peligrosas. La seguridad debe ser holística, no solo a nivel de acción.