Ces modèles qu’on appelle IA

Le monde bruisse de fantasmes. La technologie est souvent mal comprise. En ce moment, les IA font parler d’elles. Il faut dire que le nom est trompeur. Intelligences Artificielles… C’est un bon marketing venant des sociétés qui travaillent dans ce secteur, relayé par des journalistes anxieux de se voir un jour remplacés.

Et pourtant, quand on sait de quoi il s’agit…

Il est important de démystifier le fonctionnement des IA, pour éviter leur sacralisation, leur diabolisation et dissiper le halo de malentendus qui les entourent.

Les auteurices de science-fiction ont une responsabilité autour de l’accélération de l’usage des technologies qui préparent notre futur, du machine learning au Web3 en passant par la conquête spatiale. Nous sommes les premiers à jouer avec ce que ces outils offrent comme possibilités en termes d’intrigues. Que l’on cherche à produire des fictions crédibles ou volontairement fantasmatiques, nous avons en retour une forme de devoir, celui de tenter de comprendre les évolutions auxquelles nous sommes confrontés. Cela fait partie du job d’explorateur de nos futurs hypothétiques. Intuitivement, nous tentons alors d’estimer la probabilité de réalisation de nos visions et d’apprécier à quel horizon verront le jour les phénomènes plus ou moins scientifiques dont nous truffons nos textes.

Aujourd’hui, je vous parle de la vague des Intelligences Artificielles, version 2023. J’ai trouvé une belle métaphore, pour vous expliquer comment tout cela fonctionne, alors accrochez-vous, c’est parti !

L’avènement des IA génératives

De la génération d’images…

Le fantasme du moment, ce sont les IA génératives, des IA capables de générer du texte, des images, de la musique et même des vidéos, en partant d’un prompt, c’est-à-dire une demande textuelle formulée par l’utilisateur.

Ces IA génératives ont commencé à faire parler d’elles avec les premiers outils de génération d’images, Wombo Dream, puis Dall-E, pour culminer l’année dernière avec Midjourney. Malgré des résultats très variables, leur capacité à traduire les mots en images a paru impressionnante. Grâce à ces outils, chacun pouvait se sentir en possession d’un super pouvoir, révélateur d’un talent artistique caché.

En pratique, ces IA reposent sur des modèles statistiques qui utilisent une énorme base d’images correctement labellisées pour générer des illustrations similaires à celles répondant à la requête de l’utilisateur. Grossièrement, l’utilisateur lance une recherche dans une base de données d’images, puis le sous-ensemble filtré par la requête sert à calculer une sorte de moyen pondérée des images référencées.

Cette « moyenne » est en réalité complexe et c’est l’élément qui représente le savoir-faire de l’algorithme. La machine ne raisonne pas au niveau des pixels, des points de l’image, mais au niveau des « features », c’est-à-dire des composantes remarquables, les formes, que le réseau de neurones a associés à chaque label dans la base d’images. Elle retranscrit ensuite ces caractéristique en pixel, puis les fusionne pour les faire exister dans une même image.

Beaucoup de mathématiques, aucun talent.

Ces générateurs ont en pratique deux utilisations principales :

Aider les artistes à créer leurs propres images plus rapidement. La génération est là pour compléter les images, les modifier, changer le style, y ajouter des éléments manquants. L’IA générative est un nouvel outil à la disposition des artistes, comme les logiciels de retouche photo par exemple. Cette comparaison est un bon exemple, car même si certains professionnels sont encore fans de photo argentique, la photographie est désormais algorithmique. C’est ce qu’on appelle la computational photography. L’image enregistrée par l’appareil, souvent un téléphone, n’est plus une traduction directe du signal lumineux reçu par le capteur. En pratique, la lumière captée traverse différentes étapes de traitement numérique. Le signal est retraité pour améliorer l'image, produire un grain de peau plus flatteur, un meilleur rendu des hautes lumières, etc. Le cliché est réinterprété par la machine. La création artistique est devenue numérique et s’est enrichie d’assistants puissants reposant sur des fonctions algorithmiques.
Permettre aux non-graphistes de générer des images pour illustrer un texte aride. Les articles de presse ou de blog, les contenus des réseaux sociaux ont tous désormais une dimension visuelle. Il leur faut une illustration pour attirer l’œil (et le clic), sans nécessairement devoir faire appel à un illustrateur. C’est un simple habillage qui remplace les banques d’images pour des besoins d’illustrations « phatiques », vides de sens, mais attendues. Faire appel à un artiste pour produire une image personnalisée est inefficace, l’investissement en temps et en argent est disproportionné par rapport à sa valeur pour le contenu. IA et banques d’images répondent à ce même besoin de production d’images standardisées de masse.

Ces cas d’usages montrent que les IA réalisent un travail stéréotypé. Dans un cas, elles produisent des images génériques, aux défauts souvent évidents. Dans l’autre, elles endossent le rôle de petites mains, comme ces apprentis travaillant au service des artistes de renom qui coordonnaient les travaux sur les grandes fresques de la Renaissance. En aucun cas, elles ne peuvent aujourd’hui rivaliser avec la qualité du travail d’un artiste.

… à la génération de textes

Parlons maintenant de la deuxième vague de buzz autour des IA génératives, celles qui produisent du texte. Tout le monde a entendu parler de ChatGPT, c’est le logiciel à la mode du moment.

ChatGPT se présente comme un robot conversationnel, un chat bot répondant aux questions de l’utilisateur de manière relativement élaborée. En comparaison des assistants virtuels que l’on trouve sur les sites web, il y a de quoi être impressionné.

La technologie sous-jacente est classique, mais l’innovation de ChatGPT est d’avoir emballé la génération de texte dans une interface conversationnelle puis de l’avoir proposé en libre-service, à disposition de tous pour un temps. Cette interface rend l’utilisation de ChatGPT un peu magique. C’est une des raisons de l’émerveillement que l’outil suscite, mais c’est aussi, hélas, une forme de tromperie.

Pourquoi ?

Comme pour la génération d’images, l’utilisateur décrit sa demande sous forme de prompt, le plus souvent sous la forme d’une question qui sert à définir le contexte initial. L’outil génère alors un texte qu’il présente comme une réponse à la question. L’utilisateur peut ensuite compléter le contexte, et le logiciel va générer une nouvelle réponse en prenant en compte ce contexte enrichi.

Le problème ? C’est que cette interface camoufle la réalité du fonctionnement de l’application. Nous n’avons pas affaire à un réel dialogue. Le logiciel ne « comprend » pas les questions. Il utilise le contexte présenté pour générer une suite d’échanges, en prenant en compte les règles statistiques du langage établies par l’analyse de sa base de connaissance et synthétisées dans un modèle. Cela fonctionne à peu près comme la génération d’images, à base de calculs mathématiques. Il crée un texte en fonction de la probabilité de voir les mots suivants s’agencer dans cet ordre particulier. Ce système fonctionne comme la complétion des messages de votre téléphone ou de vos mails, en plus élaboré.

Au final, ChatGPT est une belle illusion qui laisse penser que ce système d’autocomplétion textuel, comme le qualifie le site The Verge, est un chat bot qui comprend les questions et y répond. En réalité, il ne fait que compléter la suite logique d’une conversation à partir des modèles statistiques de tous les textes ingérés.

Si le sujet vous intéresse, Stephen Wolfram a expliqué, en termes mathématiques, pourquoi ChatGPT fonctionne : What Is ChatGPT Doing … and Why Does It Work? À gros traits, ChatGPT a modélisé notre langage en analysant des millions de textes. Il compose des phrases en fonction du contexte proposé, en calculant des probabilités qui reproduisent nos règles grammaticales et évoluent dans un champ lexical correct. Il n’y ni magie ni grand bond technologique, ces IA font émerger des modèles statistiques de leurs données et les appliquent. C’est pour cela que ChatGPT invente des références, des sources qui n’existent pas et commet beaucoup d’erreurs. Il n’y a pas de logique interne, et donc de garantie sur le sens du résultat proposé. Ce ne sont que des mots.

Mais alors, à quoi peut dont bien servir ChatGPT ?

L’outil permet en pratique de synthétiser des sujets abondamment représentés dans sa base de connaissance. Le résultat peut être utile à l’utilisateur, s’il dispose ensuite de suffisamment de connaissances et de recul pour comprendre les réponses et poursuivre les recherches par lui-même. Une discussion avec ChatGPT doit être prise comme le point de départ d’un travail d’exploration.

C’est aussi un outil amusant qui aide à canaliser sa réflexion et explorer de nouvelles pistes, comme le permettrait un partenaire de brainstorming. On peut lui lancer des thèmes, voir ce qui émerge de sa base de données et faire évoluer son analyse dans de nouvelles directions.

Et les droits d’auteur ?

Je ne voulais pas parler des IA génératives, sans évoquer la question des droits d’auteur, car c’est le talon d’Achille des sociétés qui produisent des IA. C’est le sujet tabou que beaucoup font mine d’ignorer.

D’où viennent les images et les textes qui entrent dans leurs bases de données ? Autrement dit, est-ce que le résultat produit par ces logiciels est le fruit d’un pillage ?

Oui, je le pense. Les sociétés qui constituent ces modèles ont récupéré leurs données en ligne, sans obtenir de droit d’usage spécifique. Pourtant, elles devront tôt ou tard obtenir les droits d’utiliser les données auprès de chacun de leur propriétaire afin de pouvoir les utiliser légalement¹. Et là, ce n’est pas gagné, notamment si l’on veut prendre en compte les règles de droits d’auteur propres à chaque pays. Vous voyez Disney accepter l’intégration de ses créations à modèle capable d’en générer des versions dérivées à l’infinie ?

La vague de l’IA risque donc de se briser sur la digue des enjeux financiers liés au respect des droits d’auteur – et à la désillusion face aux réelles capacités de ces outils dans un futur proche.

Est-ce pour autant mal d’utiliser ces IA ? Nous n’en sommes qu’au début et je crois que dans la phase exploratoire, il est au contraire intéressant de jouer avec pour en comprendre les limites. Il faut cependant garder en tête la question des droits d’auteur. Non pas qu’on devrait s’interdire par principe l’usage de ces outils. Pour des besoins similaires, le recours aux banques d’images est couramment admis, personne ne le trouve scandaleux, parce que le respect des droits sur les images proposés est clair. Dans le futur, la traçabilité des données utilisées par les IA et l’attribution des inspirations au travers d’une sorte de génétique des créations est un vrai challenge technique. Pourra-t-on un jour obtenir un ADN de leur production avec une réelle cartographie des sources utilisées dans l’élaboration du produit final ?

Avec la prise en compte des droits d’auteur, la réalité économique va rattraper ces sociétés pionnières. Entre les coûts de calcul exorbitants (oui, ces IA ne sont pas écologiques) et la rémunération des ayants droit, il est difficile de trouver un modèle économique viable à court ou moyen terme. C’est le principal défi aujourd’hui pour ces outils.

Comme dans un rêve

Je parlais en introduction d’une métaphore frappante pour conceptualiser la production de ces « Intelligences artificielles ». Maintenant que vous connaissez le sujet, nous y arrivons.

Je me suis réveillé ce matin après un rêve étrange. Ce qui m’a frappé ? Ce rêve était truffé d’erreurs factuelles, triviales à vérifier, alors même que j’ai le wifi chez moi et une très bonne connexion.

Ma première pensée ? J’ai avalé ChatGPT !

Ou plutôt, ChatGPT et les IA génératives fonctionnent comme les rêves. Elles produisent un modèle, une représentation de la réalité qui leur est propre, et qui ne répond pas aux lois physiques de notre monde.

La plupart des éléments de mon rêve étaient délirants et clairement erronés. Mon cerveau, ma conscience savait que tout cela n’avait ni queue ni tête. Pourtant, mon rêve s’est construit sur ce monde d’illusions et de mensonge.

Les IA génératives produisent des résultats similaires à nos rêves. Leurs modèles reposent sur des statistiques moulinées par un algorithme qui ne comprend la réalité qu’au travers de ce qu’il infère au travers de données numériques. Une IA générative est aussi réaliste, aussi précise qu’un rêve, il ne faut pas en attendre plus. Lui demander de résoudre des problèmes, de répondre à des questions profondes, c’est comme croire en ses rêves, les confondre avec la réalité.

Pourtant, nos rêves sont utiles, ils permettent de libérer l’inconscient des obsessions de notre journée. Ils délivrent même parfois aux personnes qui y prêtent attention des fulgurances – comme certaines idées partagées ici – mais, comme avec la production des IA, il faut sacrément retravailler la matière produite pour en tirer du sens. Certaines idées dont je me souviens le matin au réveil me paraissent géniales… et s’avèrent délirantes une fois la transe dissipée.

La métaphore du rêve est d’autant plus pertinente que les outils de génération d’images ont commencé par produire des illustrations prétendument sorties de nos rêves et ont été promue comme telle (voir Wombo Dream). Les illustrations étaient colorées et un peu psychédéliques, elles présentaient des problèmes dans le nombre de doigts des mains, trois yeux, des regards bizarres, des incohérences dans les constructions, etc. On retrouve d’ailleurs encore parfois ces soucis dans les résultats de Midjourney.

Les IA produisent donc des images de rêve, des hallucinations. Alors comment s’améliorent-elles ? Comment produisent-elles des résultats plus conformes aux lois physiques ? Grâce aux humains, figurez-vous ! Ce sont les opérateurs de ces algorithmes qui ajoutent des contraintes au-dessus de la phase de génération, pour produire des résultats plus cohérents.

L’analogie vaut aussi pour la génération de textes. L’algorithme brut peut facilement répondre par des aberrations ou des ignominies, tout en respectant une syntaxe cohérente. Les opérateurs les entraînent, les domptent, et ajoutent des contraintes pour éviter les dérives les plus gênantes. Certaines barrières sont invisibles, d’autres évidentes. On le voit avec ChatGPT, qui est très explicite lorsqu’il désire éviter un sujet polémique. Dès que la contrainte est relâchée, par exemple dans le moteur utilisé par Bing, alors les IA se mettent à déconner.

Est-ce qu’on doit craindre ces IA ? Est-ce qu’elle nous menacent ? Je ne pense pas. Ce ne sont que des outils, aux fonctionnalités et aux cas d’usage très spécifiques. Nous sommes très loin de ce que les spécialistes appellent des Intelligences Artificielles fortes, capables d’autonomie et de flexibilité. Nous sommes aujourd’hui toujours dans l’ère des Intelligences Artificielles dites étroites, c’est-à-dire ultraspécialisées.

Comme dans un rêve, derrière ces modèles que l’on appelle IA, derrière leur enivrante illusion, il y a des statistiques, des modèles mathématiques, et beaucoup de travail humain pour donner de la valeur à l’accumulation de données sous-jacente.

1: Va-t-on voir apparaître des sociétés spécialisées dans le blanchiment de données, des sociétés dont le seul but sera de revendre les données de leurs utilisateurs à des boîtes d’IA ? À votre avis ?