Un dveloppeur poursuit Microsoft pour une technologie d’IA qui gnre du code semblant identique aux programmes existants Copilot s’appuie sur du code publi sur GitHub

Comme beaucoup d’I.A. de technologies de pointe, Copilot a dvelopp ses comptences en analysant de grandes quantits de donnes. Dans ce cas, il s’appuyait sur des milliards de lignes de code informatique publies sur Internet. Matthew Butterick, un dveloppeur, assimile ce processus du piratage, car le systme ne reconnat pas sa dette envers le travail existant. Dans une plainte contre Microsoft, il estime que l’entreprise et ses collaborateurs ont viol les droits lgaux de millions de programmeurs qui ont pass des annes crire le code original.

GitHub Copilot, qu’est-ce que c’est ?

Copilot a t lanc en fin juin dans le cadre d’une Preview technique sur invitation uniquement, promettant de faire gagner du temps en rpondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont bases sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribu GitHub, en utilisant un systme d’IA appel Codex de la socit de recherche OpenAI.

GitHub dcrit Copilot comme l’quivalent IA de la programmation en paire , dans laquelle deux dveloppeurs travaillent ensemble sur un seul ordinateur. L’ide est qu’un dveloppeur peut apporter de nouvelles ides ou reprer des problmes que l’autre dveloppeur aurait pu manquer, mme si cela ncessite plus d’heures de travail.

Dans la pratique, cependant, Copilot est plutt un outil utilitaire de gain de temps, qui intgre les ressources que les dveloppeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des donnes dans Copilot, l’outil leur suggre des extraits de code ajouter en cliquant sur un bouton. Ainsi, ils n’ont pas passer du temps chercher dans la documentation de l’API ou rechercher des exemples de code sur des sites spcialiss.

Un rseau neuronal dans GitHub Copilot est entran l’aide de volumes massifs de donnes, constitues du code : des millions de lignes tlcharges par les 65 millions d’utilisateurs de GitHub, la plus grande plateforme au monde permettant aux dveloppeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modles de code pour pouvoir faire du hacking lui-mme. Il peut prendre le code incomplet d’un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble russir le faire. GitHub prvoit de vendre l’accs l’outil aux dveloppeurs.

Comme pour la plupart des outils d’IA, GitHub souhaite galement que Copilot devienne plus intelligent au fil du temps en fonction des donnes qu’il collecte auprs des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modle d’apprentissage automatique utilisera ce retour d’information pour amliorer les suggestions futures, de sorte que l’outil deviendra peut-tre plus humain mesure qu’il apprendra.

De nombreux dveloppeurs ont accueilli favorablement le nouvel outil ou ont au moins t intrigus par celui-ci. Mais Matthew Butterick, dveloppeur, designer, crivain et avocat Los Angeles, n’tait pas l’un d’entre eux. Et il a expliqu pourquoi :

Citation Envoy par Matthieu Butterick

GitHub Copilot est un produit lanc par Microsoft en juin 2022 aprs une Preview technique d’un an. Copilot est un plugin pour Visual Studio et d’autres EDI qui produit ce que Microsoft appelle des suggestions bases sur ce que vous tapez dans l’diteur.

Qu’est-ce qui diffrencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est aliment par Codex, un systme d’IA cr par OpenAI et sous licence Microsoft. (Bien que Microsoft ait galement t appele le propritaire non officiel d’OpenAI ). Copilot propose des suggestions bases sur des invites de texte tapes par l’utilisateur. Copilot peut tre utilis pour de petites suggestions, par exemple jusqu’ la fin d’une ligne, mais Microsoft a mis l’accent sur la capacit de Copilot suggrer des blocs de code plus volumineux, comme le corps entier d’une fonction.

Mais comment le Codex, le systme d’IA sous-jacent, a-t-il t form ? Selon OpenAI, Codex a t form sur des dizaines de millions de rfrentiels publics , y compris du code sur GitHub. Microsoft elle-mme a vaguement dcrit le matriel de formation comme des milliards de lignes de code public . Mais le chercheur de Copilot, Eddie Aftandilian, a confirm dans un podcast rcent (@ 36:40) que Copilot est form sur les dpts publics sur GitHub .

Selon Matthieu Butterick, Copilot soulve des questions juridiques relatives la fois la formation du systme et l’utilisation du systme. Avec d’autres avocats, il a men une enqute sur les problmes juridiques lis au fonctionnement de GitHub Copilot au terme de laquelle il a dcid de porter plainte en recherchant le statut de recours collectif :

En formant leurs systmes d’IA sur des rfrentiels publics GitHub (bien que bass sur leurs dclarations publiques, peut-tre bien plus), nous soutenons que les accuss ont viol les droits lgaux d’un grand nombre de crateurs qui ont publi du code ou d’autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui ncessitent toutes l’attribution du nom de l’auteur et des droits d’auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont numres dans l’annexe la plainte.)

En plus d’avoir enfreint les exigences d’attribution de ces licences, nous soutenons que les dfendeurs ont enfreint :

  • les conditions d’utilisation et les politiques de confidentialit de GitHub ;
  • le DMCA 1202, qui interdit la suppression des informations de gestion des droits d’auteur ;
  • la loi californienne sur la protection de la vie prive des consommateurs ;
  • et d’autres lois donnant lieu des rclamations lgales connexes.

Dans les semaines venir, nous modifierons probablement cette plainte pour ajouter d’autres parties et rclamations.

Entranement / formation des systmes boosts l’IA sans compensation ni consentement

La poursuite judiciaire semble tre la premire attaque lgale contre une technique de conception appele entranement/ formation d’IA . Ces dernires annes, de nombreux artistes, crivains, experts et militants de la vie prive se sont plaints que les entreprises forment leurs systmes d’IA en utilisant des donnes qui ne leur appartiennent pas.

La plainte trouve des chos dans les dernires dcennies de l’industrie technologique. Dans les annes 1990 et dans les annes 2000, Microsoft a combattu la monte des logiciels open source, les considrant comme une menace existentielle pour l’avenir des activits de l’entreprise. Au fur et mesure que l’importance de l’open source augmentait, Microsoft l’a adopt et a mme acquis GitHub, une maison pour les dveloppeurs open source et un endroit o ils ont construit et stock leur code.

Presque toutes les nouvelles gnrations de technologies, mme les moteurs de recherche en ligne, ont t confrontes des dfis juridiques similaires. Souvent, il n’y a pas de loi ou de jurisprudence qui le couvre , a dclar Bradley J. Hulbert, un avocat spcialis en proprit intellectuelle dans ce domaine du droit de plus en plus important.

La poursuite judiciaire fait partie d’une vague d’inquitude concernant l’intelligence artificielle. Les artistes, crivains, compositeurs et autres crateurs craignent de plus en plus que les entreprises et les chercheurs utilisent leur travail pour crer de nouvelles technologies sans leur consentement et sans compensation. Les entreprises forment une grande varit de systmes de cette manire, y compris des gnrateurs d’art, des systmes de reconnaissance vocale comme Siri et Alexa, et mme des voitures sans conducteur.

Copilot est bas sur une technologie dveloppe par OpenAI, un laboratoire d’intelligence artificielle San Francisco soutenu par un financement d’un milliard de dollars de Microsoft. OpenAI est l’avant-garde de l’effort de plus en plus rpandu pour former les technologies d’intelligence artificielle l’aide de donnes numriques.

Aprs que Microsoft et GitHub ont publi Copilot, le directeur gnral de GitHub, Nat Friedman, a tweet que l’utilisation du code existant pour former le systme tait une utilisation quitable du matriel en vertu de la loi sur le droit d’auteur, un argument souvent utilis par les entreprises et les chercheurs qui ont construit ces systmes. Mais aucune affaire judiciaire n’a encore test cet argument.

Les ambitions de Microsoft et OpenAI vont bien au-del de GitHub et Copilot , a dclar M. Butterick dans une interview. Ils veulent s’entraner sur n’importe quelle donne n’importe o, gratuitement, sans consentement, pour toujours .

En 2020, OpenAI a dvoil un systme appel GPT-3. Les chercheurs ont form le systme en utilisant d’normes quantits de texte numrique, y compris des milliers de livres, des articles de Wikipdia, des journaux de discussion et d’autres donnes publies sur Internet.

En identifiant des modles dans tout ce texte, ce systme a appris prdire le mot suivant dans une squence. Lorsque quelqu’un tapait quelques mots, l’outil pouvait faire des suggestions de paragraphes entiers de texte. De cette faon, le systme pourrait crire ses propres publications, discours, pomes et articles de presse sur Twitter.

la grande surprise des chercheurs qui ont construit le systme, il pouvait mme crire des programmes informatiques, ayant apparemment appris d’un nombre incalculable de programmes publis sur Internet.

OpenAI est donc all plus loin en formant un nouveau systme, Codex, sur une nouvelle collection de donnes stockes spcifiquement avec du code. Au moins une partie de ce code, a dclar le laboratoire plus tard dans un document de recherche dtaillant la technologie, provenait de GitHub, dtenu et exploit par Microsoft.

Ce nouveau systme est devenu la technologie sous-jacente de Copilot, que Microsoft a fait tester aux dveloppeurs sur GitHub. Aprs avoir t test avec un nombre relativement restreint de dveloppeurs pendant environ un an, Copilot a t dploy auprs de tous les dveloppeurs sur GitHub en juillet.

Copilot a le pouvoir de dtruire la communaut open source, selon Butterick

Pour l’instant, le code produit par Copilot est simple et pourrait tre utile un projet plus vaste, mais doit tre amlior, ont dclar de nombreux dveloppeurs qui ont utilis la technologie. Certains dveloppeurs ne le trouvent utile que s’ils apprennent coder ou essaient de matriser un nouveau langage.

Pourtant, Butterick craignait que Copilot ne finisse par dtruire la communaut mondiale des dveloppeurs qui ont construit le code au cur de la plupart des technologies modernes. Quelques jours aprs la sortie du systme, il a publi un article de blog intitul : Ce Copilot est stupide et veut me tuer .

Butterick s’identifie comme un dveloppeur open source, faisant partie de la communaut des dveloppeurs qui partagent ouvertement leur code avec le monde. Au cours des 30 dernires annes, les logiciels open source ont contribu l’essor de la plupart des technologies que les consommateurs utilisent chaque jour, notamment les navigateurs Web, les smartphones et les applications mobiles.

Bien que les logiciels open source soient conus pour tre partags librement entre les dveloppeurs et les entreprises, ce partage est rgi par des licences conues pour garantir qu’il est utilis de manire bnficier la communaut largie des dveloppeurs. Butterick pense que Copilot a viol ces licences et, au fur et mesure de son amlioration, rendra les dveloppeurs open source obsoltes.

Aprs s’tre plaint publiquement de la question pendant plusieurs mois, il a men une enqute avec une poigne d’autres avocats. La poursuite judiciaire en est encore ses dbuts et n’a pas encore obtenu le statut de recours collectif par le tribunal.

la surprise de nombreux experts juridiques, la poursuite de Butterick n’accuse pas Microsoft, GitHub et OpenAI de violation du droit d’auteur. Sa plainte prend une approche diffrente, arguant que les entreprises ont viol les conditions d’utilisation et les politiques de confidentialit de GitHub tout en enfreignant une loi fdrale qui oblige les entreprises afficher les informations de droit d’auteur lorsqu’elles utilisent du matriel.

Butterick et un autre avocat l’origine de la poursuite, Joe Saveri, ont dclar que la poursuite pourrait ventuellement rsoudre le problme du droit d’auteur.

Lorsqu’il lui a t demand si l’entreprise pouvait discuter de la poursuite, un porte-parole de GitHub a refus, avant de dire dans un communiqu que l’entreprise s’tait engage innover de manire responsable avec Copilot depuis le dbut, et continuera faire voluer le produit pour mieux servir les dveloppeurs travers le monde le procs.

En vertu des lois existantes, la plupart des experts pensent que la formation d’un A.I. systme sur le matriel protg par le droit d’auteur n’est pas ncessairement illgal. Mais cela pourrait tre le cas si le systme finit par crer du matriel sensiblement similaire aux donnes sur lesquelles il a t form.

Certains utilisateurs de Copilot ont dclar qu’il gnre du code qui semble identique – ou presque identique – aux programmes existants, une observation qui pourrait devenir la partie centrale du cas de Butterick et d’autres.

Pam Samuelson, professeur l’Universit de Californie Berkeley, spcialise dans la proprit intellectuelle et son rle dans la technologie moderne, a dclar que les penseurs juridiques et les rgulateurs avaient brivement explor ces questions juridiques dans les annes 1980, avant que la technologie n’existe. Maintenant, dit-elle, une valuation juridique est ncessaire. Nous n’en sommes plus au problme thorique , a dclar le Dr Samuelson.

Source : Matthew Butterick (1, 2)

Et vous ?

Que pensez-vous de Copilot ?
Comprenez-vous pourquoi Matthew Butterick s’attaque Microsoft en justice et cherche le recours collectif ? tes-vous favorable cette dmarche ? Pourquoi ?
Partagez-vous son point de vue selon lequel Copilot, sous sa forme actuelle, pourrait rendre obsoltes les dveloppeurs open source ?

x