IA générative – la conférence de Kamel Smaïli

IA Générative – de quoi parle-t-on ?

Kamel Smailipar Kamel Smaïli

Conférence donnée à l’occasion des 45 ans d’ADELI


Petit résumé

(généré par chatGPT intégré à Word)

L’intelligence artificielle est utilisée dans divers domaines tels que l’armée, la médecine, la justice et la robotique. Dans l’armée, l’IA permet d’identifier rapidement des cibles et de choisir le meilleur tireur en quelques secondes. En médecine, elle peut détecter des cancers et aider à développer des médicaments plus rapidement. Dans le domaine de la justice, des systèmes d’IA sont utilisés pour répondre à des questions juridiques et même pour prendre des décisions prédictives plus précises que les juges. Les robots dotés d’IA, comme Sophia, sont capables de communiquer et d’exprimer des émotions, ce qui est important dans une société vieillissante. Différents pays investissent massivement dans l’IA, avec la Chine et la Russie cherchant à devenir les leaders mondiaux dans ce domaine. L’IA repose sur des techniques de machine learning, en particulier le deep learning, qui vise à imiter le fonctionnement du cerveau humain. Cependant, on reste prudent quant aux développements futurs de l’IA et à ses implications sur la conscience et les sentiments.

 


Retranscription complète de l’enregistrement

Le texte suivant est la retranscription de l’enregistrement audio de la conférence de Kamel SmaÏli, ce qui en explique le style oral. Nous n’avons corrigé que quelques expressions et sauté quelques passages peu compréhensibles, lors de la discussion, lorsque tout le monde parlait un peu en même temps. Nous avons rajouté des intertitres pour rendre le texte plus lisible.

Quelques applications de l’intelligence artificielle

– Je vais démarrer par quelques applications de l’intelligence artificielle et puis j’irai progressivement vers des choses un peu plus techniques.

Les militaires ont investi dans beaucoup de technologies en informatique. Il y a pas mal d’informaticiens ici et depuis quelques années, dans l’intelligence artificielle. Le général Hoffmann décrit un système fondé sur l’IA comme un système hyper puissant et pertinent, qui permet d’identifier le plus rapidement possible une cible et lui affecter le tireur le mieux placé sur le terrain. Je commence mal, je commence par l’armée, par des morts, par des choses comme ça. Ce n’est pas terrible, je le reconnais. C’est l’actualité.

Et, aucun commandant ne peut donner les ordres aussi rapidement et aussi efficacement. Cette opération, quand elle est hyper efficace, faite par des militaires, cela prend environ 20 minutes. Avec l’intelligence artificielle, cela prend 20 secondes. L’armée américaine dispose d’un groupe de travail sur l’intelligence artificielle qui a signé une convention avec le CMU (Université Carnegie Mellon), une des plus grandes universités du monde, pour développer des plateformes pour la réutilisation de programmes. Parce qu’on a des librairies qu’on réutilise, on ne réinvente pas, on crée à partir de l’existant. Donc, ils ont développé une plateforme qui leur permet d’aller récupérer ces librairies pour pouvoir développer des algorithmes d’intelligence artificielle.

Moi, vous ne m’entendrez pas dire « une IA », c’est un terme qui me gêne parce que c’est une sorte de simplification. Mais, en réalité, ce sont des modèles d’intelligence artificielle. Les gens vont répéter tout ça en disant « une IA ». Pour ma part, ça ne veut rien dire une IA, d’autant plus que c’est un domaine de recherche ou d’intimité. Mais bon, les journalistes, les hommes politiques parlent de cette manière-là. Jérémie Carter, des forces armées britanniques, prédit que pour 2030, 25 % de ses effectifs seront des robots. Là, forcément, cela pose des questions d’éthique. Un soldat, on le dit aux ordres, mais ça reste un être humain quand on lui demande de tirer. Je suppose qu’il peut se poser quelques questions. Là, on a affaire à des robots, on ne sera plus dans le même cas de figure.

L’IA est entrée en médecine, évidemment, dans la détection de cancers du poumon, des maladies cardiovasculaires, de l’identification de cancers de la peau, de la rétinopathie et un certain nombre de choses comme ça. Alors, il y a un métier. L’IA menace un certain nombre de métiers. Au début, on pensait que ça pouvait menacer de petits métiers. Le chauffeur de taxi, par exemple, c’est un métier qui risque de disparaître. Aujourd’hui, on a des voitures autonomes. Mais là, elle menace également des radiologues. Quel est le travail d’un radiologue ? Le radiologue prend, regarde une radio, un scanner et puis, avec l’expertise qu’il a, les connaissances, il établit un rapport sur ce qu’il a vu. En disant, là, je soupçonne qu’il y a quelque chose de particulier à ce moment-là. J’ignore combien un radiologue voit de radio dans sa vie, à l’époque ou aujourd’hui. Je dirai 100 000, ce qui peut être beaucoup. Avec l’intelligence artificielle, on peut voir des milliards de scanners, de radios et les rapports et tout ça. L’intelligence artificielle, c’est exactement comme de l’informatique classique, on a une boîte avec des inputs et des outputs. La seule chose, c’est que la boîte-là, on va lui apprendre à transformer ses inputs en outputs, c’est- à- dire qu’elle va prendre des radios. Elle prend les rapports correspondants et elle essaie d’établir des correspondances entre ces deux objets qui appartiennent à deux mondes différents. Voilà quelque chose de ce type-là. Là, le système pourra détecter qu’il y a une petite fracture à ce niveau-là. Il y a un domaine aussi où l’intelligence artificielle est rentrée et va rentrer, c’est pour développer des médicaments. Développer un médicament, parfois, cela prend 20 ans parce qu’il faut identifier le type de molécule, il faut faire des tests. Il faut faire un certain nombre de choses comme ça. L’intelligence artificielle le permet aujourd’hui, elle est utilisée pour pouvoir identifier un certain nombre de molécules pour ce genre de choses.

L’intelligence artificielle a été utilisée et est utilisée dans la justice. Le cabinet américain Baker, aux États-Unis, a engagé un système d’intelligence artificielle qui s’appelle ROS, pour assister ses avocats en répondant à des questions sur la jurisprudence. Évidemment, cela prend énormément de temps pour les avocats et leurs associés, pour aller étudier des documents. Là, c’est quelque chose qui est fait. Autre problématique liée à la justice utilisant l’intelligence artificielle : une étude a comparé les décisions de juges et d’algorithmes lorsqu’un tribunal décidait si un accusé devait être assigné à résidence ou placé en prison en attendant son procès. Et, à première vue, le logiciel faisait des prédictions qui étaient plus précises que celles qui étaient données par un juge.

IA générative - la conférence de Kamel Smaïli 1

ITU Pictures, CC BY 2.0 https://creativecommons.org/licenses/by/2.0, via Wikimedia Commons

Je voulais vous montrer un robot qui s’appelle Sophia. Je ne sais pas si vous avez entendu parler de ce robot-là qui aujourd’hui est multilingue. La différence par rapport aux robots précédents, c’est qu’il y a des émotions sur le visage. On ne voulait plus de ces robots machines qui étaient froids, on voulait des robots qui s’inquiètent, sont tristes, sont heureux, etc. Dans le traitement automatique des langues, ça fait longtemps qu’on travaille sur ce genre de choses, mais en robotique, on a compris également que c’était extrêmement important de mettre ces émotions sur le visage des robots parce que la société japonaise est une société très vieillissante, une société dans laquelle il y a beaucoup de solitude. Alors, la robotique marche très bien et les gens veulent acheter des robots qui ressemblent à des êtres humains. Lorsque l’on voit comment fonctionne Sophia, c’est très impressionnant. Une conférence de presse réalisée par neuf robots dotés de ce type d’intelligence artificielle s’est tenue à l’ONU. Ils répondaient à des questions très complexes, très philosophiques parfois. Alors, ça fait un peu froid dans le dos.

Quel budget ?

En 2017, Poutine déclarait que celui qui deviendrait le leader dans ce domaine serait le maître du monde. À ce moment-là, en 2017, le fonds souverain russe a levé deux milliards de dollars investis dans des entreprises russes travaillant en intelligence artificielle. La Chine fait les choses en grand. Les Chinois ont mis le paquet pour pouvoir faire le nécessaire : en 2017, 20 milliards de dollars par an pour atteindre 59 milliards en 2025. L’objectif, devenir vraiment les maîtres du monde dans l’intelligence artificielle. Dans le domaine du deep learning, je vais l’expliquer juste après, le nombre de brevets chinois est six fois supérieur à ceux des Américains. Il n’y a pas longtemps, quand j’allais dans les conférences internationales, nous avions des conférenciers invités. Généralement, ce sont les pontes du domaine. Sur les quatre, on devait avoir… Je ne sais pas, on avait des Américains, des Allemands, des gens qui venaient d’un peu partout. La dernière conférence, on avait la conférence, sur les quatre, on avait trois Chinois qui présentaient leur activité de recherche.

Donc, la Chine a énormément évolué dans ce domaine. L’UE a voté un budget de deux milliards d’euros, pour des projets touchant à l’IA pour la période 2021-2027. La Corée du Sud, en 2020, investit 840 millions de dollars en intelligence artificielle. En France, on a débloqué un budget de 665 millions d’euros sur cinq ans à partir de 2017. Par an ? Oui, par an. Amazon, 22 milliards de dollars en 2018. Donc, on ne joue pas dans la même cour. On n’est pas dans la même école, et donc forcément, on a du retard. Et, puis, je ne parle pas que de la France. Regardez en Europe, vous avez pu constater, on n’a pas l’équivalent de Google, on n’a pas l’équivalent d’Amazon, on n’a pas l’équivalent de tous ces réseaux sociaux. Les Chinois, eux, ont l’équivalent pour avoir leur indépendance, pour ne pas dépendre du reste du monde.

L’intelligence artificielle

Maintenant, On arrive à l’intelligence artificielle. L’intelligence artificielle, comme il y a beaucoup d’informaticiens ici, c’est une branche de l’informatique. Je rajouterais que c’est aussi une partie de la mathématique, parce que l’intelligence artificielle que nous avons aujourd’hui, est fondée sur énormément de maths. Pas des maths hyper sophistiquées, mais elle est fondée sur ce genre de choses. L’IA récente est fondée sur le machine Learning, dont on va parler, mais plus exactement sur le Deep Learning. Et, on va voir la différence. L’IA, permet aux machines d’apprendre de l’expérience, de s’adapter à de nouvelles entrées et à effectuer des tâches complexes. Comme il y a beaucoup d’informaticiens, ce que je vais vous dire, ne vous étonnerera pas, en informatique, on prévoit tous les cas de figure. Quand on développe un logiciel, on se dit que pour schématiser, c’est une série de si, alors, sinon. J’exagère, mais en fait, on essaie de prévoir tous les cas de figure. S’il y a un cas qui n’a pas été prévu, c’est qu’il s’agit de quelque chose qu’on ne pouvait pas traiter avec nos programmes informatiques. En intelligence artificielle, justement, on évite ce genre de choses, c’est-à-dire qu’on va faire apprendre le système sur des données colossales pour ensuite essayer de prédire des choses qui n’ont pas été vues à l’apprentissage, justement. Pour parler de développement de logiciels, vous savez, tous que développer un logiciel, cela prend énormément de temps.

Parfois, cela prend des années. Il y a 15 jours, six programmes d’intelligence artificielle ont travaillé ensemble et ont développé un logiciel en 10 minutes. Dix minutes. Je dis à mes étudiants : aujourd’hui, il faut faire attention au métier que vous allez choisir. C’est-à-dire qu’il fut un temps où il y avait des problèmes de réflexion, des problèmes de conception qui étaient du ressort de l’être humain. Il y a quelques années, j’étais prêt à jurer, qu’il y a des choses qu’on ne pourrait jamais faire avec ce qu’on appelait le machine Learning ou l’intelligence artificielle. Mais, aujourd’hui, je suis moins sûr. Aujourd’hui, on a des robots qui n’ont pas de sentiments, mais rien n’interdit que demain, on va avoir des robots qui vont vers ce genre de choses. Justement, j’avais écrit un roman de science-fiction comme ça où on voyait un robot qui déraillait au bout d’un certain temps. On l’a tellement développé qu’il est devenu aussi bête que nous autres.

Participant : Mais, les sentiments, c’est le début de la conscience.

Oui, tout à fait, mais au bout d’un moment, on ne sait pas faire. On a des semblants de sentiments. Quand on dit sentiments, ce n’est pas… Mais, par exemple, Sophia, le robot, quand on voit les sentiments, c’est que cela a été, quand même, préprogrammé, C’est-à-dire que lorsqu’elle s’étonne, elle va froncer les sourcils comme ça. Quand elle est heureuse, elle va ouvrir un tout petit peu la bouche. Mais tout ça, cela a été codé physiquement. Mais ça, on a la conscience, c’est un autre problème. Je ne sais pas si on va y arriver ou pas, mais pour le moment, j’avais des certitudes. Aujourd’hui, il faut être prudent.

Déjà, en science, généralement, on est très prudent. On sera encore beaucoup plus prudent. Je fais souvent ce schéma-là en disant que l’intelligence artificielle, c’est ce carré, mais l’intelligence artificielle, depuis quelques années, quelques décennies, c’est du machine learning, on va le voir après. Mais, plus exactement, ces derniers temps du deep learning. Certains de mes collègues ne sont pas d’accord avec moi parce qu’ils considèrent que le deep learning, c’est quelque chose qui est complètement différent, qui n’appartient pas au machine learning. Moi, je considère que c’est un seul ensemble de techniques de machine learning, parce que les techniques qu’on utilise ici paraissent toutes récentes. Pourtant, la base, comme je vais vous la montrer après, on la connaissait il y a très longtemps. On sait qu’on essaye de mimer le cerveau humain. On mime le cerveau humain, on mime l’humain quand on fait de l’intelligence artificielle depuis toujours. Chaque fois qu’on a pensé à des ordis, on a essayé de mimer l’humain. Donc, il est naturel de se poser la question « Qu’est-ce que l’apprentissage ? » Parce que comme vous allez voir, le machine learning, je ne l’ai pas traduit, mais en français, ça fait tout simplement apprentissage automatique.

Le deep learning, c’est de l’apprentissage profond. On verra après pourquoi c’est profond. Donc, il y a ce terme apprentissage et l’apprentissage chez les êtres humains ou les animaux, c’est le processus de mémorisation, mais pas que, évidemment, mis en œuvre par la nouvelle langue pour élaborer ou modifier les schémas comportementaux spécifiques sous l’influence de son environnement et de son expérience. Donc, il y a l’expérience, c’est ça qui nous permet aussi d’apprendre, et l’influence de l’environnement. Cette définition est un peu philosophique. Je préfère les deux suivantes La seconde qui dit « Je vais garder telle qualité », l’apprentissage, c’est ce changement relativement permanent dans les connaissances de l’être humain ou de son comportement dû à l’expérience. Il y a une troisième définition, c’est le processus d’acquisition de la connaissance et de l’expertise. J’aime bien cette dernière, elle est ramassée et elle dit énormément de choses. C’est le processus d’acquisition de la connaissance et de l’expertise. Ça, un ordinateur classique ne savait pas le faire. Aujourd’hui, on ne sait pas faire exactement ça, mais le résultat ressemble à ça. Quand on parle d’intelligence, en plus, il n’y a rien d’intelligent dans ces trucs-là.

Le machine learning

Le machine learning, n’est pas récent. La première définition a été donnée en 1959 et disait « Domaine qui donne la capacité à un ordinateur d’apprendre sans être explicitement programmé. C’est ce que je vous ai dit tout à l’heure. D’accord. Il y a une définition un peu plus technique qu’on utilise, c’est la deuxième. On dit qu’un ordinateur apprend d’une expérience E, une tâche T, si sa performance P s’améliore avec l’expérience E, on dira que le problème traité est géré par un algorithme d’apprentissage de type machine learning ou d’apprentissage automatique. C’est-à-dire que là, on l’a formalisé. L’apprentissage automatique, c’est lorsqu’on a un problème donné, qu’on essaie de résoudre et si la performance s’améliore avec un certain nombre d’itérations. J’utilise ce terme parce que j’ai beaucoup d’informaticiens ici. Avec les itérations, si la performance s’améliore, on dira que le système fait de l’apprentissage automatique. C’est un peu ce que nous faisons tous quand on avait cinq ans, on n’avait pas l’expertise qu’on a aujourd’hui, puis, on continue d’apprendre jusqu’au dernier souffle. Donc, cette définition est intéressante. Elle date de 98.

Pour vous donner un exemple, regardez les spams. La tâche que vous avez, les algorithmes qu’il y a derrière, ils apprennent de quelle manière ? Ils apprennent à détecter automatiquement des spams. Mais, vous allez les aider. Vous allez dire ça, c’est un spam, ça, ce n’est pas un spam, etc. C’est ce qu’on appelle l’apprentissage supervisé. Et, à la fin, au bout d’un certain temps, le système va filtrer par lui-même et calculer une mesure. On parlait de mesure tout à l’heure, on calcule une mesure qui permet de savoir si le système est en train de s’améliorer avec l’expérience. Aujourd’hui, les détecteurs de spam ne sont pas mauvais.

L’IA est passée par plusieurs étapes. L’IA à base de règles ou de système expert, c’est un ensemble de règles définissant le cas à traiter en utilisant un moteur d’inférence. Donc, on avait une sorte de système qui permettait de prendre les faits, de regarder les règles et suivre un raisonnement ou suivre un chemin, mathématiquement parlant, pour arriver à quelque chose. Les résultats n’étaient pas extraordinaires. Nous, au labo, à l’époque, on avait un système de reconnaissance automatique de la parole fondé sur un système expert. Le taux de reconnaissance de l’époque était d’à peu près 50 à 60 pour cent. Donc, ce n’était vraiment pas terrible. Puis, on est passé au Machine Learning. C’est une sorte de technique qui permet aux ordinateurs de trouver un moyen de résoudre un problème par eux-mêmes. En gros, ce sont des méthodes statistiques qui proviennent des maths. Et, là, pendant longtemps, par exemple, dans les systèmes de reconnaissance automatique de la parole que vous avez aujourd’hui sur vos téléphones, on plafonnait entre 70 et 80 pour cent en utilisant ce qu’on appelle des modèles de Markov cachés. Et, ces modèles de Markov, quand on a commencé à les utiliser, c’était vraiment une révolution. Quand on est passé des systèmes à base de règles à ces systèmes automatiques, des maths, on a réussi à obtenir d’excellents résultats, mais pendant des années, on a travaillé pour améliorer les taux de reconnaissance d’un pouième. Il y a eu des centaines, voire des milliers de conférences internationales où on se battait pour améliorer d’un pouième, mais on avait atteint un plafond de verre jusqu’au moment où on a changé complètement de technique.

Le deep learning

Le Deep Learning, ou apprentissage profond, c’est un sous-domaine de l’apprentissage automatique informatique, utilisant des algorithmes inspirés du cerveau humain, en construisant une toile de réseau de neurones artificiels. Pour situer ça sur l’échelle du temps, les neurones artificiels datent de 1950, parce que l’IA a démarré après la Deuxième Guerre mondiale. C’est maintenant que les journalistes découvrent ça, alors que cela existe depuis très longtemps, Mais les résultats n’étaient pas là, évidemment. Entre 1950 et 1980, voire jusqu’à la fin des années 90, on utilisait encore des systèmes experts, des systèmes à base de règles. Ensuite, entre 1980 et 2010, on est passé au Machine Learning. Et, depuis 2010, on a commencé à voir apparaitre ce qu’on appelle le Deep Learning.

Qu’est-ce qu’un neurone ? Je ne suis pas expert du cerveau, mais je vais essayer de vous expliquer ce que je comprends des neurones. Le neurone d’un cerveau humain est composé d’un corps cellulaire et de très nombreuses ramifications desquelles arrive l’information. Un axone pour transmettre l’information et des terminaisons axonales en sortie.

Pour nous autres, informaticiens, ce n’est pas compliqué. Le neurone de base fonctionne de cette manière-là : il y a des activités électriques et chimiques dans les neurones qui nous permettent d’apprendre, par exemple une nouvelle langue ou marcher ou parler, etc. Lorsqu’un neurone reçoit un signal électrique, il génère ce qu’on appelle un potentiel d’action. Ce potentiel d’action lui permet de titiller le neurone qui est en sortie. Les deux neurones vont travailler ensemble pour accomplir un mécanisme du souvenir. C’est-à-dire que le deuxième neurone réagit. C’est de cette manière-là, en connectant les neurones, qu’on va arriver à construire un raisonnement, à apprendre à parler une langue ou apprendre à jouer d’un instrument, etc. Si les changements électriques atteignent un seuil critique, le neurone postsynaptique génère son propre potentiel d’action. Ce potentiel d’action va se propager le long des circuits interconnectés, pour mener à bien une activité quelconque.

On a un neurone, on a les dendrites avec des connexions. Le cerveau humain est composé de 86 milliards de neurones. On en perd environ 85 000 par jour. Malheureusement pour nous tous. Et, les neurones qui ne sont pas utilisés disparaissent. Ils disparaissent également avec l’âge. À l’âge de 80 ans, le cerveau ne comporte plus que 70 % de ce qu’il avait à 25 ans. Dans les fibres, cette connexion, électrique transmet l’information très vite, à environ 120 m/s, ce qui correspond à peu près à 430 km/h.

Maintenant, j’en arrive aux neurones artificiels. Les réseaux de neurones profonds datent de 2010 mais le premier neurone artificiel a été proposé en 1943. Quand je faisais ma thèse, un belge qui s’appelait Hervé Bourla a travaillé sur ce genre de choses, mais à l’époque, on n’avait pas de machines rapides, on n’avait pas suffisamment de disques, de masse de données, de corpus pour effectuer l’apprentissage. Donc, on a laissé tomber, on s’est dit : « OK, c’est une mode, ça va disparaître ». Mais, il y a des gens qui y ont cru et qui ont continué à travailler là-dessus. Ces deux chercheurs en neurologie ont proposé dans un article où ils présentent finalement le neurone de cette manière-là : on a des entrées et une sortie. Vous avez des valeurs en entrées et dans les cercles rouges, vous avez ce qu’on appelle des coefficients synaptiques. Le système va multiplier la première valeur d’entrée par son coefficient synaptique, la seconde valeur d’entrée par son coefficient, etc. Et, il va sommer tout ça.

Dans le cerveau humain, on voudrait savoir s’il y a un pic électrique qui va permettre d’actionner quelque chose. Là, c’est exactement la même chose. Dans des neurones artificiels, on étudie ce qu’on appelle une fonction de seuillage qui permet de dire, par exemple, « si x est supérieur à 1, la sortie vaut 1, sinon, elle vaut 0 ». Quelle que soit la valeur, si on obtient 2 235 000, la sortie sera 1. Parce qu’on voudrait savoir s’il va y avoir une connexion, un transfert entre le premier neurone et le suivant. C’est la base du neurone artificiel qui mime un peu le cerveau humain. Formellement parlant, un neurone reçoit les entrées X1 à Xn, donc n valeurs. Ensuite il calcule son potentiel d’activation en faisant la somme des Xi x Wi, c’est-à-dire chaque entrée multipliée par le coefficient synaptique. Ces coefficients sont extrêmement importants. Les entrées sont fournies, mais ce qu’on apprend dans les réseaux de neurones, ce sont ces Wi. Tout est fondé sur l’apprentissage de ces Wi.

En sortie, il y a une fonction de seuillage, par exemple « S = 1 si S est supérieur à un certain seuil ». Il y a un certain nombre de fonctions de seuillage, je ne vais pas les exposer toutes. La plus utilisée s’appelle ReLU (pour Rectified Linear Unit), c’est le maximum entre 0 et x. C’est-à-dire que pour les valeurs négatives, on renvoie zéro, sinon on renvoie la même valeur. Ç’est facile à calculer et c’est énormément utilisé dans les réseaux de neurones profonds.

Si je devais vous donner une définition très simple de l’intelligence artificielle générative d’aujourd’hui, ça serait celle-ci : une histoire de transformation des données du monde réel en nombres. J’obtiens un vecteur, j’applique une autre fonction pour transformer ce vecteur. Pour capter une information supplémentaire, je vais encore transformer ce vecteur.

Dans le cas de la traduction de français en anglais, la phrase de départ est transformée un certain nombre de fois, parfois des milliers de fois, jusqu’à ce qu’on capte toute l’information nécessaire. Qu’est-ce que ça veut dire, transformer un texte en un autre ?

Par exemple, je prends un texte, je le résume. C’est une transformation d’un texte en un autre. Je veux traduire, c’est transformer un texte depuis un signal A, vers un signal B. Les êtres humains possèdent des connaissances telles que des règles de grammaire, de sémantique, de pragmatique qu’ils utilisent transforment une chose A en une chose B. Les réseaux de neurones ne fonctionnent pas ainsi. En effet, ils ne possèdent aucune règle linguistique.

Il faut savoir que Chat GPT aujourd’hui utilise une centaine de langues. Dans ChatGPT, on met en œuvre ce qu’on appelle le code switching. C’est un phénomène qu’on observe dans les pays où on parle plusieurs langues. Vous démarrez une phrase dans une langue, puis vous switchez vers une autre langue, pour revenir à la langue de départ et ainsi de suite. Avec ChatGPT, ça fonctionne très bien.

Je vais maintenant aborder une notion utilisée dans les réseaux de neurones profonds qu’on appelle l’autoencoder. L’autoencoder apprend les traits pertinents à partir de la structure des données. Si on lui donne un texte, il va essayer d’apprendre les relations qui existent entre les mots, la position d’un mot par rapport à un autre. Des choses que nous avons apprises à l’école, avec la grammaire.

Le système commence par compresser les données en entrées. Un certain nombre de transformations linéaires, au sens mathématique du terme ont lieu. Ensuite, le système cherche à décoder ce résultat en essayant de faire le travail inverse : « Est-ce que je suis capable, à partir de l’encodage que j’ai fait, pour retrouver ce que j’ai encodé ? ». C’est comme ça que le système apprend.

Un peu ce qu’on faisait il y a très longtemps en traduction automatique. Quand on voulait savoir si une phrase était bien traduite, on traduisait « a » en « b » puis « b » en « a ». Si on obtenait à peu près la même chose, on était content. Le premier système de traduction qui a été fait de cette manière-là, c’était entre l’anglais et le russe, et la phrase était : « La chair est faible et l’esprit est fort. » On traduisait de l’anglais vers le russe, puis du russe en anglais, et ça donnait : « La vodka est forte et la viande est corrompue. ». C’est une des méthodes que j’avais utilisées quand j’ai commencé à travailler sur la traduction, mais tout de suite, on était bloqué.

Pour revenir à l’encoder, schématiquement : il code les données d’une certaine manière, il les met dans un coffre-fort, il génère une sorte de code. Ensuite, il s’interroge « Est-ce qu’avec le code que j’ai, je peux retrouver ce que j’ai mis dans mon coffre-fort ».

R étant l’image reconstruite et O l’image d’origine, le système va calculer une erreur entre R et O. Que fait-il ensuite ? Le réseau est entraîné de manière à minimiser cette erreur. Quand on arrive à une erreur qui tend vers ε donc minimale, on dit que le système a appris. On boucle à l’intérieur de ce système-là, en modifiant les coefficients synaptiques dont je parlais tout à l’heure, les Cwi, jusqu’au moment où finalement, l’image qu’on obtient en sortie ressemble énormément à l’image qu’on a en entrée.

Un terme que vous devez connaître, c’est « Embedding vector ». « Embedding » veut dire embarqué. On embarque dans un vecteur un maximum d’informations. Mais, on ne va pas chercher la sémantique d’un côté, la syntaxe comme le font les linguistes avec nos connaissances humaines. Le système essaye de trouver ces résultats pour les retranscrire dans ce vecteur. Voici une explication imagée : le processus de décodage est le même que celui qui consiste à construire une maison à partir d’un plan 2D. Je projette partiellement les plans d’une construction, et à partir de cette projection, j’essaie de reconstruire ce que j’avais avant. J’ai alors quelque chose qui n’est pas fini, qui n’est pas tout à fait l’image de la construction de départ et à partir de cette image-là, j’essaie de reconstruire ma maison. C’est le principe de l’encodage.

Les modèles génératifs

Le titre de cette conférence est « L’IA générative ». Les modèles génératifs sont des réseaux de neurones qui visent à créer de nouvelles données. En informatique classique, on sait ce qu’on va obtenir. Avec l’IA générative, on va obtenir probablement quelque chose de correct, mais ce n’est pas forcément la chose à laquelle on s’attendait. Cette IA vise à créer de nouvelles données, des images, du texte, de la musique, de la vidéo, etc. qui ressemblent à ceux par lesquels elle a été entraînée. Ces modèles utilisent des techniques d’apprentissage automatiques pour capturer et reproduire les motifs et les structures présentes et les structures sous-jacentes dans les domaines d’entraînement. Et cela a pour effet de générer de nouvelles données qui semblent cohérentes et plausibles. Et elles le sont, malheureusement pour nous ou heureusement, je ne sais pas ce qu’il faut dire.

La première fois que j’ai testé chatGPT, j’étais avec un collègue. Je lui ai dit : pourquoi tu rigoles ? Il y a plein de choses qu’on va arrêter. Par exemple, le résumé automatique. C’était très compliqué parce que le résumé dépend du texte et de ce qu’on attend, etc. Aujourd’hui, les résumés de ChatGPT ne sont pas du tout mauvais. Vous pouvez lui demander d’en générer un autre, il vous générera un résumé différent. Le chatGPT payant, vous lui donnez un document PDF de 500 pages et vous lui dites : « Faites-moi un résumé d’une page. » ; et il peut générer un résumé d’une page. Imaginez le travail que cela représente. Auparavant, on mettait des jeunes ingénieurs ou des maîtres (çà dépendait du domaine), des spécialistes qui devaient lire, comprendre, synthétiser, etc., pour sortir leurs rapports. Donc, c’est extraordinaire !

Il n’y a pas que le le modèle GPT. Il y a notamment le modèle de représentation du langage BERT, qui est proposé par Google, que vous pouvez utiliser. ChatGPT va générer les mots un par un, on appelle ça des méthodes autorégressives. BERT va générer tout le résultat. Il y a des modèles qui sont extrêmement puissants. GPT est un des meilleurs, mais BERT et T5 sont des modèles hyper puissants.

Les données d’apprentissage de GPT3, c’est 45 Téraoctets de mots. De mots et non pas de texte, parce que ce n’est pas équivalent. 45 téraoctets, ça fait 45 000 milliards de mots. On a des « méthodes de transfert ». Quand on a appris quelque chose, si on doit apprendre autre chose, ce n’est pas la peine de recommencer à partir de zéro. Je vais me baser sur l’existant pour pouvoir transférer la connaissance acquise, ou du moins une partie de cette connaissance, vers ce qu’on est en train d’apprendre. Un peu comme ce que fait l’être humain. Quand on a appris le français, et qu’on apprend une autre langue, on utilise les règles ou la connaissance qu’on a acquise en apprenant le français. On sait ce que c’est que la grammaire, on sait ce que c’est qu’un sujet. On se dit : « Ah oui, le sujet en anglais, ça peut apparaître de cette manière ». Je vous ai parlé tout à l’heure de ces coefficients, il y a 175 milliards de paramètres à apprendre pour faire tourner ce modèle de langue.

Participant : S’il vous plaît, dites-moi, GPT s’est entrainé sur quelle langue ?

Justement, c’est ce que je disais, c’est multilingue. GPT a pris tous les livres, tout ce qu’il y a sur Internet, il l’a intégré dans son système. Pendant longtemps, on a fait cette erreur en disant « Quand on travaille sur l’anglais, il faut travailler sur l’anglais, quand on veut travailler sur le français, on passe au français ». Même si on utilisait des méthodes statistiques ou neuronales, c’est-à-dire qu’on n’apprenait pas les règles, mais on faisait la différence en pensant « Ce n’est pas la même chose. » L’idée, justement, c’était de les mélanger parce qu’il y a des structures communes. Pour nous, l’unité de base d’apprentissage était le mot. Dans ces modèles, on descend en dessous du mot. Ce n’est pas la syllabe, ça peut être deux lettres ou une lettre. Donc, on découpe les mots en petites structures, que ça soit du français, de l’espagnol. On mélange tout ça, on met ça dans une marmite, on ferme, on met sur le feu et on attend que ça marche. Et ça produit des mots. Oui, c’est miraculeux, mais ça correspond à quelque chose. Je vais vous expliquer comment ça fonctionne.

Pendant longtemps, dans les laboratoires, personne ne mélangeait les langues, parce qu’on était influencé par nos connaissances humaines. On pensait « Dans un cours de français, on ne va pas apprendre l’anglais, ça ne sert à rien ». Les modèles d’IA générative ont avalé tous les livres, tous les textes, tous les journaux, tout ce qu’il y avait sur Internet. Même les alphabets différents. ChatGPT travaille avec une centaine de langues. ChatGPT en arabe et grec, en principe, ne pose aucun problème. Enfin, il y a quelque chose qui pose problème parce que les dialectes arabes changent à chaque fois qu’on fait 100 kilomètres vers l’est ou vers l’ouest. Et il n’y a pas énormément de données. En revanche, l’Arabe standard, c’est comme n’importe quelle autre langue. L’arabe s’écrit de droite à gauche mais la calligraphie ne pose aucun problème. L’arabe et le turc sont des langues qui sont morphologiquement riches : un mot peut correspondre à une phrase complète en français. L’arabe avait des résultats un tout petit peu moins bons que l’anglais et le français à cause des corpus. Quand on faisait des campagnes d’évaluation, la langue qui posait le plus de problèmes, c’était le turc. Pourquoi le turc ? On agglutine les mots pour composer un mot qui correspond à une phrase. De plus, il y a un problème avec les verbes qui sont très loin du sujet, un peu comme en allemand. Il fallait faire un alignement qui n’était pas toujours facile.

En allemand le verbe est rejeté en fin de phrase. Il y a aussi des mots composés à rallonge. On peut effectivement avoir des mots qui font 25 lettres. Ce n’est pas la longueur du mot qui pose problème, mais plutôt sa structure morphologique.

Suite dans un prochain article

Print Friendly, PDF & Email
Partager cette page
Publié dans Intelligence artificielle & collective et marqué , .

Présidente d'honneur d'ADELI
Membre du comité
Responsable du GT Métiers