Que serait une IA libre ?

☙ Posté le 02-11-2024 (modifié le 05-11-2024) | ⏱ 7 minutes | ✔ 1407 mots
✎ Christophe Masutti

Fin octobre 2024, l’OSI a publié sa définition d’une IA open source. Ce faisant, elle remet en question les concepts d’ouverture et de partage. Il devient urgent d’imaginer ce que devrait être une IA libre. Je propose ici un court texte en réaction à cette publication. Sans doute vais-je un peu trop vite, mais je pense qu’il y a une petite urgence, là.

Nous savons que la définition d’un logiciel libre implique un ouverture et un accès complet au code. Il ne peut y avoir de faux-semblant : le code doit être lisible, il doit être accessible, et tout programmeur devrait pouvoir l’utiliser, le modifier et partager cette version modifiée. C’est encore mieux si la licence libre qui accompagne le programme est dite copyleft, c’est-à-dire qu’elle oblige tout partage du code à adopter la même licence.

Dans le domaine de l’IA, cela se complique un peu. D’abord, ce qu’on appelle « une IA » est un système composé :

le code qui permet de structurer le réseau neuronal. Par exemple un programme écrit en Python.
les paramètres : ce sont les poids qui agissent dans le réseau et déterminent les connexions qui dessinent le modèle d’IA. On peut aussi y adjoindre les biais qui sont utilisés volontairement pour affiner le rôle les poids.

Donc pour définir la licence d’un système d’IA, il faut qu’elle porte non seulement sur le code mais aussi sur les paramètres.

Fin octobre 2024, l’Open Source Initiative (l’OSI) a donné sa définition (1.0) de ce qu’est une IA open source. Elle indique bien cette importance donnée aux paramètres. On constate de même que pour la première fois dans l’histoire du logiciel libre ou open source, une licence d’un système porte à la fois sur du code et sur les paramètres qui permettent d’obtenir une manière particulière de faire tourner ce code.

Or, nous savons aussi qu’un système d’IA n’est rien (ou beaucoup moins) sans son entraînement. L’OSI a donc naturellement pensé à ces données d’entraînement, c’est-à-dire les jeux de données d’entrées et de sortie qui ont servi à paramétrer le système. Ainsi, la définition de l’OSI nous donne une liste des « informations suffisamment détaillées » requises au sujet de ces données d’entrainement.

Dans un article intitulé « L’IA Open Source existe-t-elle vraiment ? », Tante nous explique que cette définition de l’OSI nous embarque dans un régime d’exception problématique car le niveau de détail déclaré « suffisant » risque bien de ne jamais l’être. Par exemple on de dit pas qu’un code open source serait suffisamment ouvert : il est ouvert ou il ne l’est pas. C’est non seulement une question pratique (ai-je accès au code pour pouvoir l’inspecter et le modifier ?) mais aussi de confiance : irai-je faire tourner un programme si certains éléments, même décrits, me restent cachés ? En admettant que je puisse modifier les parties ouvertes du programme, puis-je repartager un tel programme contenant une boîte noire à laquelle personne ne peut avoir accès ?

De surcroît, la définition de l’OSI nous indique :

que pour « les données d’entraînement qui ne sont pas partageables », il suffirait de les décrire ;
que l’objectif de ce partage, à défaut de reproduire exactement le même système, consiste à obtenir un système seulement « similaire ».

Ainsi en cherchant à définir l’ouverture des systèmes d’IA, l’OSI cherche à modifier la conception même de ce qu’est l’ouverture. L’idée n’est plus de partager un commun numérique, mais de partager une méthode pour en reproduire un équivalent. Cette concession faite aux producteurs de systèmes d’IA déclarés open source implique un net recul par rapport aux avancées des dernières années au sujet des communs numériques. Là où l’ouverture du code pouvait servir de modèle pour partager toutes sortes d’oeuvres et ainsi contribuer au partage de la connaissance et de l’art, voici qu’un commun numérique n’a plus besoin d’être partagé dans son intégralité et peut même contenir ou dépendre d’éléments non ouverts et non accessibles (pourvu qu’ils soient « décrits »).

L’ouverture se distinguerait alors du partage. On tolèrerait des éléments rivaux dans les communs numériques, là où normalement tout partage implique l’enrichissement mutuel par l’abondance qu’implique ce partage. L’OSI conçoit alors l’ouverture des systèmes d’IA comme une sorte de partage inaboutit, un mieux-que-rien laissé dans le pot commun sans réel avantage. Sans l’intégralité des données d’entraînement, non seulement le système n’est plus le même mais encore faut il trouver les ressources suffisantes ailleurs pour en obtenir une alternative de niveau équivalent.

A contrario, un système d’IA libre devrait être fondé :

sur du code libre,
sur des données d’entraînement libres et accessibles à tous (elles peuvent être elles-mêmes sous licence libre ou dans le domaine public),
sur des algorithmes d’entraînement libres (bon, c’est des maths normalement), publiés et accessibles,
et le tout, pour mieux faire, sous Copyleft.

Mais ce n’est pas tout, il faut que les données soit décrites ainsi que la manière de les utiliser (l’étiquetage, par exemple). En effet, que les données soient libres n’est pas en soi suffisant. Tout dépend de l’usage : si j’entraîne une IA sur des données libres ou publiques il faut encore les évaluer. Par exemple si elles ne contiennent que des contenus racistes le résultat sera très différent que si je l’entraine sur des contenus dont on a évalué la teneur et que cette évaluation ai dûment été renseignée. Ici se joue la confiance dans le système et plus seulement la licence !

La question n’est pas de savoir s’il est aujourd’hui possible de réunir tous ces points. La question est de savoir ce que nous voulons réellement avec les systèmes d’IA.

Par ailleurs, l’OSI nous donne une définition qui intervient a posteriori par rapport aux systèmes d’IA existants et distribués d’emblée sous le drapeau open source. Un peu comme si l’OSI prenait simplement acte d’une pratique déjà mise en place par les acteurs des grands modèles d’IA, à l’Instar d’OpenAI qui soutenait qu’il n’était pas possible d’entraîner des systèmes d’IA sans matériel copyrighté (Ars Technica, 09/01/2024). Ce à quoi Huggingface a répondu quelques mois plus tard, en novembre 2024, en proposant une large base de données sous licences permissives (open source, domaine public, libre… la liste est sur ce dépôt).

En France, le Peren (le Pôle d’Expertise de la Régulation Numérique) est intervenu juste après l’annonce de l’OSI pour proposer un classement des système d’IA selon cette définition. Et ce classement s’accomode très bien avec la conception de l’ouverture des Big AI : tout est plus ou moins ouvert, plus ou moins accessible, voilà tout. Il n’y a aucune valeur performative de la définition de l’OSI là où une approche libriste cherche au contraire à imposer les éléments de probité inhérents aux libertés d’usage, de partage et de modification.

Est-ce vraiment étonnant ? Récemment Thibaul Prevost a publié un ouvrage passionant au sujet du cadre narratif des Big AI (Les prophètes de l’IA - Pourquoi la Silicon Valley nous vend l’apocalypse). On y apprend que, selon le Corporate Europe Observatory dans un communiqué édifiant intitulé Byte by byte. How Big Tech undermined the AI Act les Big AI se sont livrés à un lobbying de choc (plus qu’intensif, il était exclusif) dans le cadre des négociations de l'AI Act en 2023, jusqu’aux plus hauts sommets des intitutions européennes pour « faire supprimer du texte les obligations de transparence, de respect du copyright des données d’entraînement et d’évaluation de l’impact environnemental de leurs produits » (chap. 4). Avec sa définition, ce que fait l’OSI, c’est approuver la stratégie de maximisation des profits des Big AI pour donner blanc seing à cette posture de fopen source (avec un f) qui valide complètement le renversement de la valeur de l’ouverture dans les communs numériques, en occultant la question des sources.

On voit aussi l’enjeu que pourrait représenter une conception altérée de l’ouverture dans plusieurs domaines. En sciences par exemple, l’utilisation d’un système d’IA devrait absolument pouvoir reposer sur des garanties bien plus sérieuses quant à l’accessibilité des sources et la reproductibilité du système. Il en va du statut de la preuve scientifique.

Plus largement dans le domaine de la création artistique, le fait que des données non partageables aient pu entraîner une IA revient à poser la question de l’originalité même de l’oeuvre, puisqu’il serait impossible de dire si la part de l’oeuvre dûe à l’IA est attribuable à l’artiste ou à quelqu’un d’autre dont le travail se trouve ainsi dérivé.

Il y a encore du travail.