Aller au contenu
IARGPD

Le RGPD en action

Face à l'essor de l'intelligence artificielle, le Règlement Général sur la Protection des Données (RGPD) se révèle être un garde-fou indispensable, assurant transparence et sécurité dans la gestion des données personnelles, tout en posant des défis éthiques et juridiques inédits.

L'intelligence artificielle confrontée à la justice

Si les sphères informatiques ou juridiques ont retenu votre attention ces dernières années, l'acronyme RGPD—pour "Règlement Général sur la Protection des Données"—n'a sans doute pas échappé à votre vigilance. Peut-être avez-vous également pris conscience de l'afflux d'e-mails vous notifiant des mises à jour en matière de "politiques de gestion de vos données".

Mais avez-vous remarqué les milliards d'euros d'amendes infligées dans ce cadre juridique précis ? Ces différentes mesures cherchent à protéger vos droits, des droits souvent mis à mal dans un univers numérique à la mémoire indélébile et où les processus de traitement des données ne cessent de s'automatiser.

Le RGPD face à l'intelligence artificielle générative

Rappel sur le RGPD et ses enjeux

Adopté en 2016 pour une mise en application en 2018, ce texte européen fournit à ses états membres ce qui leur manquait probablement jusqu'alors : une force de frappe permettant de s'attaquer même aux AMAMA (nom des GAFAM depuis que Google et Facebook s'appellent respectivement Alphabet et Meta).

Il est toutefois assez intéressant de noter que même si le RGPD innove par sa force de frappe, il est loin d'être le premier né des textes européens en matière de protection des données. On peut notamment citer la directive 95/46/CE en 1995, prenant elle-même pour référence la loi française "Informatique et Libertés" entrée en vigueur en ... 1978 !

Les textes ont évolué avec le temps pour se renforcer et préciser certains contextes, mais leurs objectifs principaux sont inchangés. En France, ces principes sont évangélisés par la Commission nationale de l'informatique et des libertés (CNIL) via différents moyens, allant de l'accompagnement à la conformité, jusqu'à la sanction des mauvais élèves.

Nous pouvons retenir que les différentes entités (privées comme publiques) ont de multiples devoirs afin de respecter nos droits. Cela s'articule, parmi bien d'autres choses, autour de la transparence du traitement de nos données, de la minimisation des données collectées comme du temps de leur conservation et du droit à l'accès, rectification voire suppression.

Ces droits ont été érigés afin de nous protéger d'usages qui, même sans être malveillants, peuvent nous être plus ou moins dommageables. L'utilisation d'informations erronées ou obsolètes nous concernant, dans des processus pouvant être totalement automatisés, peut être lourde de conséquences.Prenons un exemple bénin : vous décidez de vous inscrire sur un site de commerce en ligne pour acquérir cet article qui a retenu votre attention. Vous ne faites pas attention lors de la création de votre compte que par défaut une case autorisant l'envoie de tout un tas de communications commerciales est cochée. Pas de chance, en plus de cela, le site vend vos données de contact à d'autres du même genre. Vous vous retrouvez dès la semaine suivante avec une avalanche d'e-mails et de prospectus indésirables.

Plaque à l'entrée des bureaux de la CNIL (Commission Nationale Informatique et Libertés), à Paris, France

La problématique des données avec l'IA

L'intelligence artificielle, et plus particulièrement le machine learning tel que nous le connaissons aujourd'hui, a été conceptualisée il y a plusieurs dizaines d'années déjà. Si l'accès à des technologies telles que ChatGPT a pris autant de temps, c'est en raison des contraintes techniques qui prévalaient encore récemment. La puissance de calcul et les données (que ce soit en quantité ou en qualité) sont depuis longtemps le nerf de la guerre. Pour en avoir le cœur net, citons l'exemple de la reconnaissance de chiffres manuscrits allant de 0 à 9. Problème assez simple pour un humain qui n'aura besoin que de quelques exemples pour se débrouiller. Mais pour une machine, le socle d'apprentissage classique de ce problème est la base MNIST offrant quelques 60.000 images... On imagine difficilement le nombre de photos requises pour identifier l'ensemble des animaux ou des plantes !

L'accès à des puissances de calcul plus importantes s'est naturellement facilité avec le temps et les progrès technologiques. Les grandes puissances publiques comme privées se sont empressées de constituer leurs data centers, répondant aux nouveaux besoins qui émergeaient. Aujourd'hui, il est commun d'avoir accès à des ressources conséquentes à bon prix, souvent même gratuitement. Ce point n'est donc plus vraiment un facteur limitant. Il finira peut-être par le redevenir d'un point de vue énergétique, mais ce n'est pas le sujet du jour.

L'accès à la donnée de l'autre côté est probablement plus challengeant.
Il existe plusieurs manières d'obtenir les données nécessaires à l'entraînement de son modèle d'IA : on peut utiliser des bases existantes (publiques ou privées) ou s'en constituer une directement, que ce soit à l'aide de nos utilisateurs ou par l'intermédiaire de données tierces que l'on composerait avec plus ou moins de transformations. On peut penser au web scraping (extraction automatisée des données de sites web).

La façon dont ces données sont collectées, et éventuellement transformées, aura des répercussions multiples.

D'un point de vue technique, on distingue 2 grandes familles de données : celles qui sont labellisées et celles qui ne le sont pas (il existe évidemment des cas intermédiaires). Le fait d'avoir des labels permet de booster l'apprentissage de notre modèle que ce soit en réduisant (drastiquement) la quantité d'information nécessaires, en améliorant les performances de réussite ou même en rendant possible le traitement (on aura du mal à faire de l'identification d'espèces d'animaux, par exemple, si l'on fournit à notre modèle qu'un ensemble d'images correspond à "chien" ou à "lapin"...). Il est généralement ardu et souvent onéreux de créer de telles bases d'information manuellement étiquetées. Mais certains ont toutefois réussi avec ingéniosité ! Comme Google qui a utilisé le système de Captcha afin que les utilisateurs contribuent à la numérisation de livres ou à la classification d'image.

D'un point de vue juridique, l'utilisation des données récoltées à des fins d'intelligence artificielle est susceptible de se heurter à des questions juridiques. Cette illégalité peut venir d'un usage des données dans un cadre non prévu et notamment non consenti par l'utilisateur. Une problématique parmi d'autres est celle du scraping. Avons-nous vraiment le droit d'utiliser des données récoltées sur le web et de les utiliser sans demander la permission à leurs auteurs ? L'Europe a répondu en 2019 : oui. La fouille de texte est autorisée sans demander le consentement aux auteurs, y compris pour des usages commerciaux, mais ces derniers doivent avoir la possibilité de s'opposer à la réutilisation de leurs œuvres. Aujourd'hui, cette possibilité d'opposition ne semble pas pouvoir s'appliquer dans bien des cas...

Illustration d'un homme aspirant la Data 

Le RGPD dans le cadre de l'IA

Nous avons donc vu d'une part que le RGPD cherche à protéger nos données personnelles et d'autre part que la création d'une IA requiert beaucoup d'informations, pas forcément personnelles. A priori, AlphaGo, célèbre IA joueuse de Go, n'a que faire de votre groupe sanguin. Eh bien, sachez que la CNIL n'a pas attendu l'engouement pour les IA génératives de 2022 pour s'interroger sur la question.

C'est notamment à partir de 2016 (date d'adoption du RGPD, il y a déjà 7 ans !) que l'on commence à trouver des indices fréquents de réflexion. On peut notamment citer l'article Sans données, le futur de l’IA restera artificiel du Laboratoire d'innovation Numérique de la CNIL (LINC) en 2016, la concertation citoyenne sur les enjeux de l'IA organisée par la CNIL en 2017 ou encore le tout nouveau service de la CNIL dédié à l'IA créé en 2023, dont le but est justement de canaliser et de structurer ces différentes actions. L'équipe affectée pour l'occasion aidera ainsi à répondre au nombre croissant de demandes de réflexions autour de l'IA.

Ces divers actes et prises de position françaises mais également européennes sont en train de se cristalliser avec la conception, depuis 2021, d'un nouveau règlement Européen sur l'IA. Mais ce dernier n'est pas créé parce que le RGPD serait devenu obsolète face à l'émergence des IA génératives. Les principes du RGPD restent inchangés et sont toujours applicables, l'objectif du nouveau règlement est simplement de les compléter et d'expliciter les différents cas qui peuvent sembler flous. On identifie notamment les IA dites à "usage général" comme pouvant théoriquement résoudre n'importe quel type de problème. ChatGPT peut éventuellement se vendre de cette manière. Ces IA se heurtent souvent à l'objectif de minimisation de la collecte de données personnelles, ainsi qu'à la définition claire d'une finalité pour le traitement des données.

Avouons-le, ces différents cadres légaux peuvent paraître assez étouffants. Les législateurs sont cependant assez terre à terre et leur but n'est pas du tout de freiner l'innovation, au contraire ! L'ambition est d'aider à l'émergence de champions européens respectueux de nos données personnelles. Cela se passe en deux temps. D'une part, les services étrangers (surtout ceux des géants) ciblant les citoyens européens sont soumis aux mêmes contraintes de mise en conformité que les entités européennes. Il n'y a donc pas de concurrence déloyale à ce niveau. D'autre part, la CNIL met en place chaque année depuis 2021 des "bacs à sable réglementaires" où des projets IA innovants et respectant certaines contraintes sont sélectionnés et accompagnés par la CNIL. L'enjeu est double. D'un côté, cela permet à la commission d'être confrontée à la réalité du terrain avec les différentes problématiques, un objectif également poursuivi avec les travaux menés dans son laboratoire numérique. De l'autre côté, cela permet aux entreprises et entités publiques d'être accompagnées dans la mise en conformité de leur traitement de données.

D'ailleurs, si vous êtes en train de concevoir une IA, la CNIL a préparé plusieurs checklists pour vous aider à vous poser les bonnes questions.

Parlons bien, parlons concret

Nous avons vu un certain nombre de grandes idées et lignes directrices mais que se passe-t-il vraiment ?

C'est ce que nous allons voir maintenant : quelques exemples de cas parmi bien d'autres de l'utilisation de vos données personnelles par une IA et la manière par laquelle la législation est intervenue.

Quand l'Italie interdit l'utilisation de ChatGPT

ChatGPT interdit en Italie

Cela peut paraître surprenant mais oui, la CNIL Italienne a bel et bien fait interdire (ou plutôt suspendre) chatGPT durant le mois d'avril 2023 !

Que s'est-il exactement passé pour entraîner cette décision ?

La commission italienne, en suivant les principes du RGPD, a jugé qu'OpenAI faisait preuve d'un certain nombre de manquements. Notamment en termes de transparence du traitement des données personnelles, de la possibilité des utilisateurs à exercer leurs droits légitimes ou encore pour la vérification de l'âge des utilisateurs (le service est censé être réservé aux personnes de plus de 13 ans).

À la suite d'une série de discussions entre les autorités italiennes et les représentants d'OpenAI, ChatGPT a été suspendu, assorti d'une liste de mesures à mettre en œuvre pour rectifier la non-conformité et obtenir une nouvelle autorisation. Sans mise en œuvre de ces mesures, la société OpenAI se serait exposée à des amendes.

Il convient de souligner que bien que l'Italie ait pris l'initiative, tout autre État membre de l'Union européenne aurait pu engager des procédures similaires.

Détection de fraude

Saviez-vous que vos déclarations fiscales sont étudiées par une IA ?

"Ciblage de la fraude et valorisation des requêtes", nom de code CFVR, a été progressivement expérimenté, pérennisé puis étendu depuis 2014 à plusieurs reprises. Initialement réservé dans le cadre des contribuables professionnels, il est maintenant aussi utilisé pour les particuliers.

Grâce à ce compte rendu d'une demande d'avis adressée à la CNIL, nous pouvons recueillir divers éléments. On y découvre notamment que la CNIL manifeste des réserves, notamment à cause du grand nombre de personnes impactées par ce traitement, du caractère particulièrement sensible des données traitées (donc des risques potentiels pour les personnes) et la demande systématique de pérennisation des différentes expérimentations alors même que les apports de ces dernières restaient assez vagues.

En conséquence, la CNIL préconise des contraintes fortes et un engagement important de la part des acteurs sur leurs démarches. Cela passe entre autres par :
- Un accès très restreint aux données traitées
- Le maintien de conditions de sécurité adaptées (serveurs, chiffrement...)
- Une liste de finalités pour l'utilisation des données très clairement définie afin d'éviter tout détournement d'usage de ces données
- La communication régulière à la CNIL d'un bilan en plus de ses éventuels contrôles
- L'absence de conséquence pour les droits d'un particulier dans le cadre d'un traitement automatique.

Revenons un peu plus en détail sur ce dernier point. Le but du projet CFVR est de détecter des anomalies sur les déclarations fiscales qui déclencheront l'envoi automatique de demande de renseignement afin d'aider les personnes visées à se régulariser (dans le cas où elles ne le seraient pas). Mais son but n'est en aucun cas de déclencher des contrôles fiscaux automatisés. Cette notion d'automatisation des processus et des conséquences qui pourraient en suivre est très importante aux yeux du RGPD. Pour cette raison, il est plus courant de développer des outils d'aide à la décision.

La question de la destruction de nos bases de données.

Destruction des données aux USA

Jusqu'à présent nous avons parlé quasi exclusivement de l'Union Européenne. Mais la protection des données personnelles étant plus ou moins universelle, il est également intéressant de voir comment cela peut se passer ailleurs !

Aux États-Unis, la FTC, une agence ayant notamment pour rôle le contrôle des droits à la consommation, a appris à se servir d'une forme de peine capitale envers une société : la destruction de leurs bases de données. Nous allons rapidement nous intéresser au cas Everalbum.

Everalbum propose un service permettant le stockage et l'organisation en ligne de photos. En 2017, la société propose une nouvelle fonctionnalité permettant l'identification de ses amis, basée sur la reconnaissance faciale. La fonctionnalité (censée être facultative et soumise à un accord de l'utilisateur) est en réalité activée pour tout le monde, sans possibilité de désactivation. L'entreprise va jusqu'à utiliser les photos de ses utilisateurs pour entraîner un algorithme de reconnaissance faciale ensuite vendu à d'autres sociétés. Pour finir, les utilisateurs désactivant leur compte et dont les données devraient être effacées ne le sont évidemment pas.

En conséquence de ces agissements, Everalbum doit faire face non seulement à des sanctions financières et réputationnelles, mais également à l'obligation d'effacer divers ensembles de données. Ces derniers incluent les informations des utilisateurs ayant clôturé leur compte, celles pour lesquelles l'entreprise n'a pas obtenu de consentement explicite, ainsi que toutes données et algorithmes dérivés, y compris les modèles d'intelligence artificielle.

Conclusion

L'intégration croissante de l'intelligence artificielle dans nos vies soulève des questions cruciales de régulation et d'éthique. De la suspension temporaire de ChatGPT en Italie aux initiatives de lutte contre la fraude fiscale en France, jusqu'aux mesures drastiques prises aux États-Unis, il est manifeste que les législateurs sont activement engagés. Ces exemples illustrent l'impératif d'un débat public éclairé et d'une régulation rigoureuse pour assurer que l'essor de ces technologies s'accorde avec nos valeurs démocratiques et nos droits individuels. Dans ce paysage en perpétuelle mutation, la vigilance reste essentielle pour garantir que les progrès technologiques ne viennent pas ébranler nos libertés fondamentales.

Dans un contexte explicitement illégal, nous vous invitons à lire notre article consacré au phénomène du sharenting pour découvrir comment les données personnelles (biométriques) de vos enfants, ou même les vôtres, pourraient être détournées afin de tisser un nouvelle toile de mensonges.

Dernier