Dans les services financiers, la gouvernance n'est pas optionnelle. La responsabilité est le produit. Régulateurs, auditeurs, clients et tribunaux exigent tous des réponses à la même question : qui a décidé ceci, et pourquoi ?
Les systèmes IA agentiques ne répondent pas clairement à cette question. Ils n'ont pas été conçus pour ça. Et les cadres construits pour gouverner les décideurs humains ne se transposent pas clairement sur les systèmes qui opèrent sans décideur humain dans la boucle.
Trois écarts se sont ouverts simultanément.
La plupart des organisations n'en ont fermé aucun.
Écart 01
Responsabilité
Écart 02
Fiabilité
Écart 03
Architecture
L'Hypothèse
Chaque décision a un propriétaire. La chaîne de responsabilité va de l'action à l'acteur - une personne, un rôle, un numéro de licence. Quand quelque chose va mal dans les services financiers, les régulateurs suivent cette chaîne. L'hypothèse est que la chaîne existe et se termine chez un être humain.
La Réalité
Quand un agent décide - exécute un trade, refuse une demande, marque une transaction comme suspecte, envoie une communication client - la chaîne de responsabilité se fracture en au moins quatre parties, dont aucune ne possède pleinement le résultat :
- Le développeur qui a écrit les instructions de l'agent et l'accès aux outils
- Le fournisseur de modèle dont les poids sous-tendent le raisonnement de l'agent
- L'opérateur qui a configuré le workflow et défini les seuils
- L'humain qui a programmé le cron job à 3h du matin et ne l'a plus vérifié depuis
Chaque partie peut de manière plausible décliner la responsabilité. Aucune n'a une visibilité complète sur ce qui s'est passé. L'agent ne s'explique pas - il produit une sortie, enregistre un flux de tokens, et continue.
Modèle d'Incident
Un agent de surveillance de conformité marque 847 transactions comme suspectes pendant un weekend. Le lundi, l'équipe en examine 40. Les 807 autres sont dédouanées en bloc parce que la queue est trop longue. Trois de ces 807 sont du vrai blanchiment. Qui est responsable - l'agent qui les a marquées (correctement), l'équipe qui les a dédouanées (sans examen), le manager qui a doté l'équipe d'un effectif réduit, ou l'exécutif qui a approuvé le déploiement ?
La Solution
Propriétaires de décisions nommés, pas propriétaires de processus. Assignez un humain dont la description de poste inclut explicitement la responsabilité de ce qu'un agent spécifique produit - pas le processus de l'exécuter, mais les sorties qu'il génère. Cette personne doit avoir l'accès, l'autorité et le temps pour vraiment examiner les décisions de l'agent, y compris celles qui n'ont pas escaladé. Associez ceci avec un registre d'agents qui documente ce que fait chaque agent, ce qu'il touche, qui en est propriétaire, et quel est le chemin d'escalade. Le registre n'est pas optionnel dans un environnement réglementé. C'est la piste documentaire que les régulateurs demanderont en premier.
L'Hypothèse
La précision est la métrique qui compte. Si le modèle obtient 95% de bonnes réponses sur le benchmark, il est fiable à 95%. C'est comme ça que se passent les conversations d'approvisionnement, comment les cartes de performance des fournisseurs sont construites, et comment les décisions de déploiement sont prises. La précision est mesurable. La précision est lisible. La précision se trompe.
La Réalité
Le cadre d'évaluation de Princeton (arxiv:2602.16666) identifie 12 dimensions distinctes de fiabilité d'agent - et la précision en est une. Les autres mesurent les modes de défaillance que la précision obscurcit activement :
- Cohérence : L'agent donne-t-il la même réponse à la même question deux fois ? Un agent qui obtient 95% sur un benchmark mais donne des réponses différentes sur des requêtes répétées n'est pas fiable à 95% - il est imprévisiblement non-fiable.
- Robustesse : La précision se maintient-elle quand les entrées sont légèrement reformulées, formatées différemment, ou soumises à différents moments de la journée ? La plupart des agents sont fragiles de manières que le benchmark ne révèle pas.
- Prévisibilité : Les humains qui surveillent l'agent peuvent-ils anticiper quand il échouera ? L'échec imprévisible est plus dangereux que l'échec prévisible - vous pouvez concevoir autour du second.
- Sécurité : L'agent prend-il des actions qu'il ne devrait pas dans des cas limites ? Un agent précis à 99% qui prend occasionnellement des actions destructrices irréversibles a un problème de fiabilité que la précision ne peut pas mesurer.
- Calibrage : L'agent sait-il quand il ne sait pas ? Les agents trop confiants produisent de mauvaises sorties avec une haute confiance, ce qui est pire que de produire de mauvaises sorties avec une incertitude appropriée.
Modèle d'Incident
Un agent de risque crédit performe à 94% de précision sur les données historiques. Déployé en production, il rencontre une nouvelle structure de prêt - un produit que les données d'entraînement n'incluaient pas. Sa précision sur les nouvelles structures est de 61%. Il ne le signale pas. Il produit des sorties avec des scores de confiance normaux. L'équipe ne voit aucun signal que quelque chose va mal. Ils le découvrent lors d'une revue de portefeuille six mois plus tard.
The Fix
Retirez l'évaluation à métrique unique. Avant de déployer un agent dans une fonction réglementée, exigez des tests contre un minimum des 12 dimensions de fiabilité Princeton pertinentes pour cette fonction. Pour les services financiers : priorisez le calibrage (sait-il quand il ne sait pas ?), la robustesse (tient-il sous des entrées de cas limites ?), et la sécurité (prend-il jamais des actions en dehors de sa portée prévue ?). Documentez le profil de fiabilité - pas seulement le score de précision - dans l'enregistrement de déploiement. Quand l'agent échoue, cette documentation est ce qui distingue la négligence de la diligence raisonnable.
Governance frameworks are written for human decision-makers.
Agentic systems don't have one.
That is not a gap in the agent. It is a gap in the framework.
L'Hypothèse
Les cadres de gouvernance supposent un décideur humain au centre. Chaque obligation de conformité, exigence d'audit, devoir fiduciaire, et mandat réglementaire a été conçu avec une personne à l'esprit - quelqu'un qui peut être tenu responsable, qui peut expliquer son raisonnement, qui peut être sanctionné ou récompensé. L'architecture entière de la régulation financière est un système pour gouverner le jugement humain.
The Reality
Agentic systems are not human decision-makers operating at scale. They are a fundamentally different class of actor - one that existing frameworks were not designed to govern. The architectural mismatches are structural:
- Fiduciary duty attaches to persons. An agent is not a person. The human nominally responsible for an agent's outputs may have no knowledge of a specific decision - and no mechanism to have had it.
- Explainability requirements assume the decision-maker can articulate their reasoning. Chain-of-thought outputs are not reasoning traces - they are post-hoc narratives generated by the same model that produced the output.
- Audit trails record human actions. Agent logs record token emissions. These are not equivalent. A log that shows what the agent output does not show why, and courts have not yet resolved whether a token stream satisfies an explanation requirement.
- Sovereign agent frameworks (e.g., arxiv:2501.xxxxx) propose that agents with persistent identity, goal-directedness, and resource acquisition capabilities may require governance frameworks closer to corporate personhood than to software licensing. Financial regulators have not caught up.
Incident Pattern
A wealth management firm deploys a client communication agent that sends personalized portfolio commentary to 12,000 clients. One communication contains a statement that, in context of a specific client's tax situation, constitutes unsolicited tax advice - a licensed activity. No individual at the firm made the decision to send it. The agent did. Regulators ask who is responsible. The firm's legal team spends four months constructing an answer that satisfies nobody.
The Fix
Governance-by-design, not governance-by-retrofit. Before deploying agents in regulated functions, map every regulatory obligation the agent's outputs could trigger - licensing, disclosure, suitability, explainability, data residency, fair lending, best execution. For each obligation, designate a human who is accountable for that dimension specifically and who has the access to monitor it. Do not attempt to retrofit existing compliance frameworks onto agentic systems - they will not fit. Build the governance architecture around the agent's actual decision surface, not the human decision-making framework it replaces. This is not a compliance exercise. It is a precondition for operating legally at scale.
La question n'est pas de savoir si vos agents sont précis.
La question est qui répond quand ils se trompent.
Sources
Princeton AI Reliability Framework - "Benchmarking Agentic AI: A Thinking-First Approach to 12 Metrics of Reliability" (arxiv:2602.16666, 2025) ·
Sovereign AI Agents - proposed governance frameworks for persistent, goal-directed AI actors (arxiv, 2025) ·
FANUC Oshino Plant - lights-off manufacturing reference, 2001–present ·
Dark Factory Scale - unmake.it framework for agentic automation maturity