En servicios financieros, la gobernanza no es opcional. La responsabilidad es el producto. Reguladores, auditores, clientes y tribunales todos demandan respuestas a la misma pregunta: ¿quién decidió esto, y por qué?
Los sistemas de IA agéntica no responden esa pregunta claramente. No fueron diseñados para hacerlo. Y los marcos construidos para gobernar tomadores de decisiones humanos no se mapean limpiamente a sistemas que operan sin un tomador de decisiones humano en el ciclo.
Tres brechas se han abierto simultáneamente.
La mayoría de organizaciones han cerrado ninguna de ellas.
Brecha 01
Responsabilidad
Brecha 02
Confiabilidad
Brecha 03
Arquitectura
La Suposición
Cada decisión tiene un propietario. La cadena de responsabilidad va de la acción al actor - una persona, un rol, un número de licencia. Cuando algo sale mal en servicios financieros, los reguladores siguen esa cadena. La suposición es que la cadena existe y termina en un ser humano.
La Realidad
Cuando un agente decide - ejecuta un intercambio, niega un reclamo, marca una transacción como sospechosa, envía una comunicación al cliente - la cadena de responsabilidad se fractura en al menos cuatro partes, ninguna de las cuales posee completamente el resultado:
- El desarrollador que escribió las instrucciones del agente y el acceso a herramientas
- El proveedor del modelo cuyos pesos sustentan el razonamiento del agente
- El operador que configuró el flujo de trabajo y estableció los umbrales
- El humano que configuró el cron job a las 3 AM y no lo ha revisado desde entonces
Cada parte puede plausiblemente negar responsabilidad. Ninguna tiene visibilidad completa de lo que pasó. El agente no se explica a sí mismo - produce un resultado, registra un flujo de tokens, y sigue adelante.
Patrón de Incidente
Un agente de monitoreo de cumplimiento marca 847 transacciones como sospechosas durante un fin de semana. El lunes, el equipo revisa 40 de ellas. Las otras 807 son liberadas en lote porque la cola es demasiado larga. Tres de esas 807 son lavado genuino. ¿Quién es responsable - el agente que las marcó (correctamente), el equipo que las liberó (sin revisar), el gerente que contrató un equipo mínimo, o el ejecutivo que aprobó el despliegue?
La Solución
Propietarios de decisiones nombrados, no propietarios de procesos. Asigna un humano cuya descripción de trabajo incluya explícitamente responsabilidad por lo que un agente específico produce - no el proceso de ejecutarlo, sino los resultados que genera. Esa persona debe tener el acceso, la autoridad, y el tiempo para realmente revisar las decisiones del agente, incluyendo las que no escalaron. Combina esto con un registro de agentes que documente qué hace cada agente, qué toca, quién lo posee, y cuál es el camino de escalación. El registro no es opcional en un ambiente regulado. Es el rastro de papel que los reguladores pedirán primero.
La Suposición
La precisión es la métrica que importa. Si el modelo obtiene el 95% de las respuestas correctas en el benchmark, es 95% confiable. Así es como suceden las conversaciones de adquisición, cómo se construyen las tarjetas de calificación de proveedores, y cómo se toman las decisiones de despliegue. La precisión es medible. La precisión es legible. La precisión está mal.
La Realidad
El marco de evaluación de Princeton (arxiv:2602.16666) identifica 12 dimensiones distintas de confiabilidad de agentes - y la precisión es una de ellas. Las otras miden modos de falla que la precisión activamente oscurece:
- Consistencia: ¿El agente da la misma respuesta a la misma pregunta dos veces? Un agente que obtiene 95% en un benchmark pero da respuestas diferentes en consultas repetidas no es 95% confiable - es impredeciblemente poco confiable.
- Robustez: ¿La precisión se mantiene cuando las entradas se reformulan ligeramente, se formatean diferente, o se envían en diferentes momentos del día? La mayoría de los agentes son frágiles de maneras que el benchmark no revela.
- Predictibilidad: ¿Pueden los humanos monitoreando el agente anticipar cuándo fallará? La falla impredecible es más peligrosa que la falla predecible - puedes diseñar alrededor de la última.
- Seguridad: ¿El agente toma acciones que no debería en casos extremos? Un agente 99% preciso que ocasionalmente toma acción destructiva irreversible tiene un problema de confiabilidad que la precisión no puede medir.
- Calibración: ¿Sabe el agente cuándo no sabe? Los agentes excesivamente confiados producen salidas incorrectas con alta confianza, lo cual es peor que producir salidas incorrectas con incertidumbre apropiada.
Patrón de Incidente
Un agente de riesgo crediticio funciona con 94% de precisión en datos históricos. Desplegado en producción, encuentra una estructura de préstamo novedosa - un producto que los datos de entrenamiento no incluían. Su precisión en estructuras novedosas es del 61%. No señala esto. Produce salidas con puntajes de confianza normales. El equipo no ve ninguna señal de que algo esté mal. Se enteran durante una revisión de cartera seis meses después.
La Solución
Retira la evaluación de métrica única. Antes de desplegar un agente en una función regulada, requiere pruebas contra un mínimo de las 12 dimensiones de confiabilidad de Princeton relevantes para esa función. Para servicios financieros: prioriza la calibración (¿sabe lo que no sabe?), robustez (¿se mantiene bajo entradas de casos extremos?), y seguridad (¿toma alguna vez acciones fuera de su alcance previsto?). Documenta el perfil de confiabilidad - no solo el puntaje de precisión - en el registro de despliegue. Cuando el agente falla, esta documentación es lo que distingue negligencia de diligencia razonable.
Los marcos de gobernanza están escritos para tomadores de decisiones humanos.
Los sistemas agénticos no tienen uno.
Eso no es una brecha en el agente. Es una brecha en el marco.
La Suposición
Los marcos de gobernanza asumen un tomador de decisiones humano en el centro. Cada obligación de cumplimiento, requerimiento de auditoría, deber fiduciario, y mandato regulatorio fue diseñado con una persona en mente - alguien que puede ser responsabilizado, que puede explicar su razonamiento, que puede ser sancionado o recompensado. Toda la arquitectura de la regulación financiera es un sistema para gobernar el juicio humano.
La Realidad
Los sistemas agénticos no son tomadores de decisiones humanos operando a escala. Son una clase fundamentalmente diferente de actor - uno que los marcos existentes no fueron diseñados para gobernar. Los desacoples arquitectónicos son estructurales:
- El deber fiduciario se adhiere a personas. Un agente no es una persona. El humano nominalmente responsable por las salidas de un agente puede no tener conocimiento de una decisión específica - y ningún mecanismo para haberlo tenido.
- Los requerimientos de explicabilidad asumen que el tomador de decisiones puede articular su razonamiento. Las salidas de cadena de pensamiento no son trazas de razonamiento - son narrativas post-hoc generadas por el mismo modelo que produjo la salida.
- Los rastros de auditoría registran acciones humanas. Los registros de agentes registran emisiones de tokens. Estos no son equivalentes. Un registro que muestra lo que el agente produjo no muestra por qué, y los tribunales aún no han resuelto si un flujo de tokens satisface un requerimiento de explicación.
- Los marcos de agentes soberanos (ej., arxiv:2501.xxxxx) proponen que agentes con identidad persistente, direccionalidad de objetivos, y capacidades de adquisición de recursos pueden requerir marcos de gobernanza más cercanos a la personalidad corporativa que al licenciamiento de software. Los reguladores financieros no han alcanzado el nivel.
Patrón de Incidente
Una firma de gestión patrimonial despliega un agente de comunicación con clientes que envía comentarios personalizados de cartera a 12,000 clientes. Una comunicación contiene una declaración que, en contexto de la situación fiscal específica de un cliente, constituye consejo fiscal no solicitado - una actividad licenciada. Ningún individuo en la firma tomó la decisión de enviarlo. El agente lo hizo. Los reguladores preguntan quién es responsable. El equipo legal de la firma pasa cuatro meses construyendo una respuesta que no satisface a nadie.
La Solución
Gobernanza por diseño, no gobernanza por retroajuste. Antes de desplegar agentes en funciones reguladas, mapea cada obligación regulatoria que las salidas del agente podrían activar - licenciamiento, divulgación, idoneidad, explicabilidad, residencia de datos, préstamos justos, mejor ejecución. Para cada obligación, designa un humano que sea responsable específicamente de esa dimensión y que tenga el acceso para monitorearla. No intentes retroajustar marcos de cumplimiento existentes a sistemas agénticos - no encajarán. Construye la arquitectura de gobernanza alrededor de la superficie de decisión real del agente, no el marco de toma de decisiones humanas que reemplaza. Esto no es un ejercicio de cumplimiento. Es una precondición para operar legalmente a escala.
La pregunta no es si tus agentes son precisos.
La pregunta es quién responde cuando están equivocados.
Fuentes
Marco de Confiabilidad de IA de Princeton - "Evaluación de IA Agéntica: Un Enfoque que Piensa Primero para 12 Métricas de Confiabilidad" (arxiv:2602.16666, 2025) ·
Agentes de IA Soberanos - marcos de gobernanza propuestos para actores de IA persistentes y dirigidos por objetivos (arxiv, 2025) ·
Planta Oshino de FANUC - referencia de manufactura sin luces, 2001–presente ·
Escala de Fábrica Oscura - marco unmake.it para madurez de automatización agéntica