FR EN
< Bataille juridique autour des Trois Bandes : le monopole d’Adidas remis en cause
23.09.2024 12:09 Il y a: 77 days
Categorie: Droit des Technologies Avancées, Informatique, libertés et vie privée , Les essentiels, Veille Juridique

IA PaLM 2 : l'Irlande enquête sur Google et le respect du RGPD

Enquête de l'autorité irlandaise sur Google : l’entraînement du modèle d’IA PaLM 2 en ligne de mire


 

L'autorité irlandaise de protection des données (DPC) a annoncé l'ouverture d'une enquête sur Google concernant la collecte de données pour l'entraînement de son modèle d'intelligence artificielle PaLM 2. Cette investigation s'inscrit dans le cadre des efforts déployés par les autorités européennes pour réglementer le traitement des données personnelles face au développement rapide des systèmes d'IA.

 

Les obligations à respecter pour l’entraînement des modèles d'IA

L’autorité cherche principalement à déterminer si Google a respecté les obligations du Règlement général sur la protection des données (RGPD) et suspecte notamment :

 

  • L’absence d’étude d'impact préalable à la collecte de données.
  • Une utilisation potentielle de données personnelles d'internautes européens sans leur consentement explicite.

 

Si l'enquête se concentre principalement sur ces deux aspects, la totalité des obligations du RGPD doivent être respectées pour le développement d’une IA dès lors qu’un traitement de données personnelles est réalisé. Il s’agit par exemple :

 

  • De la loyauté et la transparence des traitements de données (par exemple : information sur l’origine des données en cas de collecte de données publiquement accessibles par des outils de scrapping) ;
  • De la détermination des durées de conservation, des modalités d’archivage et des politiques d’accès ;
  • De l’identification d’une base juridique (intérêt légitime, consentement, exécution d’un contrat, etc.) ;
  • De la détermination d’une finalité et les règles de réutilisation des données ;
  • Du respect des droits des personnes concernées (accès, rectification, oubli, opposition, etc.) ;
  • Des enjeux de sécurité du traitement, notamment liés à la cybersécurité de l’organisation ;
  • Des règles relatives aux transferts de données hors de l’Union Européenne ;
  • De l’encadrement contractuel de la relation avec les sous-traitants.

 

Les paradoxes entre IA générative et RGPD : minimisation, durées de conservation, information et transparence

L’enquête diligentée à l’encontre de Google met en lumière les tensions et injonctions paradoxales ayant lieu entre le développement d’un modèle d'IA générative et le respect du RGPD.

 

Minimisation et collecte des données

 

Les grands modèles de langage comme PaLM 2 nécessitent d'énormes quantités de données pour leur entraînement. La centralité de ce nouvel or noir du 21ème siècle pour concevoir des modèles d’IA performants poussent les producteurs de bases de données et les fournisseurs de ces modèles à se lancer dans une course effrénée : des données, encore plus de données, toujours plus de données.

 

De l’autre côté, le principe de minimisation implique quant à lui de limiter le traitement de données à ce qui est nécessaire au regard des finalités poursuivies. Il s’agit d’un principe phare du RGPD, dont le non-respect a entraîné moultes sanctions de la CNIL.

 

Et la minimisation des données n’est pas le seul enjeu tendant vers la frugalitédes modèles d’IA. L’énergie consommée pour l’entraînement des IA ou le stockage des données s’opposent par exemple aux exigences de durabilité également défendues par l’Union européenne.

 

Consentement, intérêt légitime et information

 

Pour qu’une collecte de données soit licite, le RGPD impose qu’elle repose sur une « base juridique ». Il peut notamment s’agir du consentement de la personne concernée, de l’exécution d’un contrat, d’une obligation légale ou de l’intérêt légitime du responsable de traitement.

 

Pour la constitution des immenses bases de données nécessaires au développement d’un modèle d’IA, les données sont le plus souvent collectées sans le consentement des personnes concernées. En l’absence de contrat à exécuter et d’obligation légale à respecter, les producteurs de bases de données et fournisseurs de modèles d’IA justifie la collecte des données d’entraînement par leur intérêt légitime.

 

Le développement des systèmes d’IA semble donc favoriser le recours à cette base juridique, dont tout laisse à penser qu’elle sera de plus en plus utilisée dans les prochaines années. Reste à savoir si, comme le prévoit le RGPD, les fournisseurs s’abstiendront d’invoquer leur intérêt légitime lorsque les droits des personnes prévaudront sur la nécessité d’entraîner leur modèle d’IA.

 

En outre, ne pas fonder ce traitement sur la base juridique du consentement n’exonère pas ces opérateurs de leur obligation d’informer les personnes concernées. Or, pour collecter ces données, ils utilisent souvent des outils de scrapping qui, se limitant à extraire des données de sites internet, ne permettent pas de contacter les personnes concernées pour les informer de ce traitement.

 

Durée de conservation des données

 

Alors que le RGPD impose de conserver les données collectées pendant une durée n'excédant pas celle nécessaire au regard des finalités, les fournisseurs de modèles d’IA n’apportent aucune garantie sur la suppression des données à l’issue de la phase d’entraînement.

 

Et pour cause, ces données sont également nécessaires en phase de production pour le bon fonctionnement du modèle.

 

Certes, des techniques telles que le machine unlearning permettent au modèle de « désapprendre » une partie des données d’entraînement, mais la suppression d’une part significative de ces données affecterait nécessairement les performances du modèle.

 

Black box et explicabilité

 

Enfin, les grands modèles de langage utilisés à ce jour reposent souvent sur du deep learning. Ce mode d’apprentissage, très gourmand en données, conduit également à un phénomène de boîte noire. Concrètement, ce phénomène décrit l’impossibilité d’expliquer la manière dont le modèle a généré le résultat à partir des données d’entrée.

 

Or, le RGPD impose que le traitement s’opère de manière transparente, ce dont le CEPD déduit notamment que toute personne concernée devrait avoir le droit d’être informée, de manière significative, sur la logique sous-jacente d’une prise de décision automatisée.

 

On parle alors d’interprétabilité du système : donner des informations pour en comprendre le fonctionnement général. À cela s’ajoute parfois des exigences d’explicabilité : expliquer pourquoi le modèle a généré les résultats obtenus. Il s’agit cette fois de révéler précisément le cheminement poursuivi par le modèle ce qui, en matière d’IA générative, et donc de deep learning, s’avère ardu compte tenu du nombre très important de paramètres.

 

Le phénomène de boîte noire ainsi observé entrave l’explicabilité des modèles et empêche les responsables de traitement de satisfaire à leurs obligations de transparence.

 

Cependant, il faut noter que les méthodes d’interprétabilité et d’explicabilité des modèles (intelligence artificielle explicable (XAI) par exemple) se multiplient et se perfectionnent. Aussi, il est probable que ce phénomène de boîte noire soit un jour surpassé et les objectifs de transparence du RGPD atteints.

 

En attendant, les fournisseurs de modèles d’IA à usage général sont sous haute surveillance des autorités.

 

 

Google, Meta, et X (Twitter) : les géants technologiques sous surveillance pour l’entraînement de leur modèle d’IA

Au vu des tensions évoquées, il n’est pas étonnant que l’initiative de l’autorité irlandaise à l’encontre de Google ne soit pas isolée. Ce n’est d’ailleurs pas sans rappeler la sanction du groupe hôtelier ACCOR pour ses pratiques en matière de prospection commerciale ou celle de la CNIL à l’encontre d’Amazon à cause de la collecte de données par des outils de surveillance algorithmique.

 

D'autres géants technologiques tels que Meta et X (anciennement Twitter) ont également fait l'objet de contrôles concernant l’entraînement de leurs modèles d’IA. Et la pression croissante des régulateurs a d’ailleurs conduit Meta à suspendre son projet d’entraînement de son modèle d’IA avec les données issues des publications et légendes diffusées sur Facebook et Instagram par les utilisateurs.

 

Affaires à suivre…

 

En toute hypothèse, cette enquête met en lumière la tension croissante entre l'innovation technologique et la protection des données personnelles, un défi majeur que les législateurs et les entreprises devront relever dans les années à venir. Reste à savoir si la position pro-régulation adoptée par l’Union Européenne, et récemment réaffirmée par l’adoption de l’AI Act, s’avèrera payante.

 

Nos avocats du pôle RH/data sont à votre disposition pour vous informer sur les enjeux à venir et vous accompagner dans votre processus de mise en conformité.

 

Découvrez nos formations RH/data en partenariat avec la legaltech Trustbydesign.