Un Data Catalog n’est pas une solution de Compliance
Au même titre que la gouvernance, la conformité réglementaire est un sujet fondamental pour toute organisation data-centric.
Il existe un nombre impressionnant de réglementations relatives au traitement des données, selon les secteurs d’activité et les géographies. Rien que sur les données personnelles, la RGPD s’impose à tous les États membres de l’Union Européenne mais chaque État bénéficie de marges importantes quant à sa mise en oeuvre, et la plupart disposent d’un arsenal législatif venant compléter, renforcer ou adapter la GDPR (l’Allemagne à elle seule compte plusieurs dizaines de réglementations sectorielles relatives aux données personnelles).
Aux Etats-Unis, sur ce seul sujet des données personnelles, il existe des centaines de lois plus ou moins locales, plus ou moins sectorielles, plus ou moins sérieuses. Et nous ne parlons que des données personnelles… Il existe aussi des réglementations sur les données financières, les données de santé, les données biométriques, les données bancaires, les données de risques, les données assurantielles, etc. Bref, chaque organisation évolue dans un environnement réglementaire spécifique auquel elle doit se conformer.
Que signifie être conforme?
La très grande majorité des audits réglementaires reposent sur les même piliers:
- être capable de fournir une documentation complète et à jour de l’organisation, des procédures et des contrôles mis en place pour satisfaire aux exigences de la norme,
- être capable de produire la preuve que les procédures décrites dans la documentation sont bel et bien exécutées sur le terrain,
- démontrer sa capacité à superviser l’ensemble des mesures déployées dans une optique d’amélioration continue
Un Data Catalog n’est pas une bibliothèque de procédures, ni un système de consolidation de preuves, et encore moins une solution de supervision de processus.
Il ne fait aucun doute que laisser le catalogue prendre en charge ces responsabilités ne peut se faire qu’au détriment de sa simplicité d’usage (les normes sont souvent absconses pour les non initiés), et en mettant en péril son adoption par ceux qui peuvent le plus en tir er bénéfice (les équipes data).
Faut-il pour autant oublier le Data Catalog dans l’effort de conformité?
Non, bien sûr ! Une nouvelle fois, en matière de conformité, il est nettement plus judicieux de confier au Data Catalog une fonction d’acculturation des équipes data.
Et de poser simplement les tags sur les données, permettant à ces équipes d’identifier rapidement les éventuelles normes et procédures auxquelles elles doivent se conformer pour pouvoir les utiliser. Le catalogue peut d’ailleurs aider à poser ces tags, en utilisant plusieurs approches.
Il peut par exemple détecter automatiquement des données sensibles ou personnelles. Mais même boostée au ML, cette détection ne sera jamais parfaite (la notion de “Données Personnelles” définie par la GDPR est par exemple nettement plus large, et difficile à détecter, que la PII nord-américaine). La capacité du catalogue à bien gérer ces tags est donc fondamentale.
Take Away
La conformité réglementaire est avant tout affaire de documentation et de preuves, qui n’ont pas leur place dans un Data Catalog.
Le Data Catalog permet par contre d’identifier (plus ou moins automatiquement) les données soumises à des contraintes réglementaires. La Data Catalog joue un rôle clé dans l’acculturation des équipes data au respect du cadre réglementaire.