Skip Navigation

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Hello!

bon slrpnk.net a l'air d'être dans les choux alors je lance ce post avec mon compte de secours jlai.lu

Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l'anglais. Et je trouve qu'en français, ben y a pas grand chose. C'est presque uniquement du discours dystopique mal informé.

Rien sur la recherche sur l'alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.

On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d'une forêt bien plus grande.

Perso ça va faire 5 ans que je fais du deep learning professionnellement. J'ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c'est un projet plus ou moins mort, mais c'était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d'autres.

J'ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J'ai réussi à passer au 4/5e l'année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j'utilise des modèles de deep learning pour la vision).

Ça fait plus de 20 ans que j'ai réalisé que l'IA a le potentiel de changer le monde pour le mieux, c'est pas par hasard que j'ai essayé de m'orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d'aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.

J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!

Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!

Voila, je préférerais qu'on reste sur ces thèmes mais AMA anyway!

114 comments
  • Quelles sont pour toi les trois idées fausses les plus dommageables que les gens ont au sujets de LLMs / IAs?

    • Alors...

      1. Que ces modèles sont contrôlés par des grosses boites et que c'est inévitable. De tous les scénarios possibles, on est dans une des meilleurs timelines vis à vis de ça et je pense qu'on le doit beaucoup à la communauté open source: même quand les modèles sont fermés, les architectures sont connues, ouvertes, libres de droit, les implémentations standard le sont sur des frameworks libres, tout ça était très, très loin d'être acquis. Et les modèles ouverts sont extrêmement compétitifs aujourd'hui. C'est simple, malgré les milliards injectés dans le domaine, y a que deux boites et demi qui sont encore dans la course: OpenAI, Anthropic et à moitié Google.
      2. Qu'on a besoin de la puissance de mille soleils pour faire tourner ces modèles. Beaucoup de gens ont l'air de confondre l'énergie utilisée pour entraîner ces modèles, qui est à dépenser une fois, et l'énergie utilisée pour les faire tourner, qui est équivalente à faire tourner un bon jeu 3D sur un PC moyenne gamme (ça fait tourner le GPU). Et de nombreux fabricants sont en train de sortir des puces spécialisées pour améliorer grandement les rendements. L'aspect énergétique est vraiment négligeable.
      3. Ce point là est moins dommageable mais trouble souvent les conversations: Que ce qui était vrai l'année dernière l'est encore aujourd'hui. Chaque semaine amène son lot d'évolutions parfois fondamentales. Je bosse depuis 20 ans dans la tech, j'ai suivi pendant mes étude le dotcom burst et pourtant j'ai jamais vu une tech évoluer si vite.
  • Coucou merci pour l'AMA !

    Quelle est la réalité du problème d'AI imbreeding que certains relèvent ? Si j'ai bien compris il y a un risque que les modèles (de langage ou de génération d'image) apprennent sur du contenu généré par IA, ce qui entraînerait à des résultats de plus en plus mauvais ?

    Je suppose que ma question est plutôt quelles sont les mesures prises dans le milieu pour s'assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d'entraîner l'IA ?

    Et en plus léger, qu'elle est la première fois que tu as entendu parler d'IA ?

    • Perso je ne crois pas que ce soit un problème, ou en tous cas pas encore. Les publis que j'ai vu sur le sujet semblent indiquer que les sorties de LLMs produisent des datasets de meilleure qualité que les datasets originaux. Et quand on y pense, ça a du sens: un modèle a été entraîné à produire des "bons" textes à partir d'un peu n'importe quoi. Il y a une certaine logique à ce qu'un premier LLM arrive à faire une version améliorée du premier dataset.

      Est ce qu'on peut itérer longtemps comme ça? Pas sur, mais je pense qu'on surestime le problème voire qu'on l'imagine.

      quelles sont les mesures prises dans le milieu pour s’assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d’entraîner l’IA ?

      Pour ceux qui sont dans la course à la perf et au meilleur benchmark: zéro. Tant que mettre plus de données améliore les résultats, ils font ça. Tout github, tout reddit, tout facebook y passe.

      La recherche est en train de montrer que - surprise! - la qualité des données d’entraînement influe grandement sur la qualité du modèle et ça intéresse surtout les groupes avec moins de moyens.

      Les chercheurs qui travaillent sur les problèmes d'alignement (d'éthique) s'intéressent à ces questions aussi. Par exemple une discussion intéressante avait lieu à EleutherAI pendant qu'ils assemblaient The Pile: Est ce qu'il faut intégrer toute la librairie du Congrès US? D'un coté c'est intéressant d'avoir des siècles de discussion législative, de l'autre, sur une bonne partie de cette période, on considère que les noirs sont une marchandises et sur la majorité de la période, des citoyens de seconde zone.

      Ce qu'il y a d'intéressant c'est que des données pourries, biaisées, racistes, peuvent tout de même aider le modèle à s'améliorer, mais il faut que ce soit fait correctement et il y a là matière à des débats qui relèvent de la politique et de la philosophie appliquées ("Peut-on combattre le racisme en ignorant les thèses racistes?" Vous avez 4 heures)

    • Et en plus léger, qu’elle est la première fois que tu as entendu parler d’IA ?

      Oh ça date! Je lis de la SF depuis que je suis petit, et les robots m'ont toujours fasciné, on m'a rapidement expliqué que le software était le plus gros facteur limitant, du coup l'IA devient le problème à résoudre rapidement. Je pense pas avoir eu plus de 12 ans quand on a commencé à en discuter.

  • Je suis développeur et je dois admettre que ces LLM sont fascinants (je refuse d’employer le terme IA, au même titre que je déteste les voix humaines de nos assistants vocaux)

    J’utilise quotidiennement et en local Phind-CodeLlama-34B, Mistral et CodeQwen et ça me fait gagner un temps fou pour pas mal de tâches répétitives, mais sans tomber dans le catastrophisme j’ai du mal à envisager une issue entièrement positive à ce qui est en train de se passer.

    Un des points de friction majeur, c’est que j’observe déjà chez mes copains artistes les effets dévastateurs des IA génératives, y compris chez ceux qui les utilisent. Des graphistes, animateurs, musiciens qui se retrouvent dépossédés de leur créativité qui se retrouvent à corriger ou reproduire des images promptées. Des traducteurs qui se retrouvent au chômage, des profs de langues en crise existentielle. Et des profs qui se retrouvent à faire la chasse aux tricheries, quand ils ne doivent pas débattre pour prouver que ChatGPT raconte parfois n’importe quoi, devant des gamins sans sens critique.

    Les LLM représentent aussi la fin des spécialistes. Dans ma boite on me demande déjà de rédiger de la documentation en plus de mon dev, sur des sujets auxquels je ne connais rien, parce que le mec qui sait est en vacances, ou qu’il a pas le temps. “Demande à ChatGPT” c’est la nouvelle réponse à tout.

    Dans quelques années, le mec qui devait rédiger ma documentation aura peut-être été licencié, ou alors il demandera à ChatGPT de développer sa feature parce que c’est moi qui serai en vacances.

    Alors c’est vrai que c’est pas la première fois qu’un outil transforme la société et met une profession entière au chômage. La bagnole a tué les marchands de chevaux, la photographie a tué les portraitistes, Wikipedia a tué les vendeurs d’encyclopédie… rien de nouveau sous le Soleil…

    Mais l’idée que les machines fassent de l’art pendant que les humains se crèvent le cul sur une chaîne d’assemblage, je dois bien admettre que ça ne me réjouit pas du tout. Notre société ne met jamais l’Humain en premier. Le plus important c’est le profit. Partant de là on sait déjà dans quelle direction on va aller.

  • Bonjour et merci pour cet AMA Voici quelques questions que je me pose.

    Y a t il un intérêt à continuer l'apprentissage d'un modèle Mistral 7b par exemple ? Si oui est ce que c'est faisable en local sur une machine qui fait tourner le RN si on parle "d'ajouter" un petit corpus de spécialisation par exemple.

    Quel est l'intérêt pour Mistral de donner son modèle ? D'ailleurs Il me semble qu'ils ont arrêté. Llama est libre aussi. Quel retour de la communauté attendent- ils ?

    Il semblerait que chatgpt soit devenu bon aux échecs. J'ai donc entendu parler de sondes qui semblent montrer que le RN c'est fait une représentation de l'échiquier. Qu'est ce que ces sondes et comment sont elles construites ?

    Concernant les prompts qu'elle serait ton explication au fait que de générer des tokens aléatoire en début de réponse amélioré le résultat ? Dans la même idée pourquoi quand on demande de répéter à l'infini le RN retourne une partie du corpus ?

    Enfin est il facile de retourner un RN ? C'est à dire de donner une réponse et avoir le prompt correspondant ?

    Et merci d'avance !

    • Y a t il un intérêt à continuer l’apprentissage d’un modèle Mistral 7b par exemple ?

      Alors il y a plusieurs façons de comprendre cette question, et oui à toutes ses acceptations.

      1. Si tu parle de continuer l'entraînement total du modèle: oui, on sait que la plupart (tous?) les modèles disponibles sont sous-entraînés. Il y a un point où on ne gagne qu'un petit peu en continuant d’entraîner longtemps mais le gain continue à être positif, donc oui. Par contre ça prend beaucoup plus de VRAM que de faire tourner une version du modèle en inférence. Je ne sais plus quel est le multiplicateur mais c'était 16 ou 24x je ne sais plus par rapport à un modèle quantizé.
      2. Si tu parles de le spécialiser, tu veux peut être parler de fine-tuning. Dans ce cas là, c'est tout à fait possible sur une machine même modeste grâce à des optimisations de type LORA (et on a peut être inventé d'autres moyens d'accélérer ça depuis?) qui te permettent de n’entraîner que de petite touches du modèle. Par contre là, attention! J'ai essayé de faire ça en espérant apprendre de nouveaux faits à un modèle, et ça n'a pas marché. Le fine-tuning permet de facilement changer le "style" de sorte d'un domaine. Par exemple si tu veux lui donner une certaine personnalité, lui faire apprendre une autre langue ou lui faire utiliser une API particulière. Par contre ça marche assez mal pour les nouveaux fait et risque d'augmenter ses hallucinations (car tu lui apprends à répondre des choses non présentes dans ses "couches profondes" de connaissances. C'était à l'époque de Llama2, ça a peut être changé depuis je n'ai pas réessayé, mais il y a une raison pour laquelle les gens qui veulent faire apprendre de nouvelles connaissances à un système préfèrent le RAG.

      Quel est l’intérêt pour Mistral de donner son modèle ? D’ailleurs Il me semble qu’ils ont arrêté.

      Dés le début Mistral a joué franc jeu, il faut le leur reconnaître: ils avait prévenu que leurs plus gros modèles seraient fermés. Ils ont donné des modèles très bons, petits en libre pour se faire connaître et ça a marché et valu le coup. Une réputation comme la leur vaut des milliards, ça leur a coûté des millions. C'est une bonne affaire.

      Llama est libre aussi. Quel retour de la communauté attendent- ils ?

      Llama, pour ceux qui ne le savent pas, c'est Meta, donc Facebook derrière. C'est pas de l'angélisme (à part pour Yann Le Cun, leur directeur IA semble vraiment idéologiquement pour l'IA open source, un gros <3 pour lui) et Zuckerberg le disait clairement, posément, cyniquement: "notre gros modèle a coûté ~10 milliards à entraîner [je pense que c'est exagéré mais c'était cher quand même]. dans les 10 prochaines années on va dépenser autour de 100 milliards en IA. Si la communauté open source rend nos modèles 10% plus performants, on s'y retrouve". C'est imparable. Eux sont utilisateurs, pas vendeurs, et ils préfèrent des bons modèles qui tournent chez eux que de dépendre du bon vouloir d'OpenAI. Et la communauté a déjà probablement fait plus qu'améliorer de 10% leurs perfs donc bon calcul pour Zuck.

      Il semblerait que chatgpt soit devenu bon aux échecs. J’ai donc entendu parler de sondes qui semblent montrer que le RN c’est fait une représentation de l’échiquier. Qu’est ce que ces sondes et comment sont elles construites ?

      Les modèles spécialisés enfoncent ChatGPT aux échecs (pour donner une idée, le Elo d'un débutant aux échecs est de 1000, le champion humain actuel, Magnus Carlsen est à 2800, le meilleur soft est à 3600).

      Mais oui, c'est intéressant parce que ChatGPT a des capacités émergentes en la matière. Ces sondes sont faites par des gens qui ont accès au modèle pendant qu'il tourne et viennent regarder les "neurones" activés dans les différentes couches du modèle. Je ne sais pas comment ils ont fait dans le cas présent mais une façon de faire pourrait être de poser un problème d'échec et de demander à ChatGPT de compéter "la case C2 contient" puis "la case C3 contient", etc. et regarder quels zones sont activées. Il y a probablement une couche d'attention où "l'état mental" de l'échiquier est contenu.

      Sur ChatGPT, seul OpenAI est capable de faire ça, mais sur des modèles ouverts, toute personne faisant tourner le modèle peut faire une manip du même genre. Ces réseaux ne sont pas totalement des boites noires: on peut aller bidouiller à l'intérieur. On parle de boite noire parce qu'il n'est pas nécessaire de le faire, mais on peut les ouvrir, on a la clef, quand ils ne sont pas propriétaire.

      Enfin est il facile de retourner un RN ? C’est à dire de donner une réponse et avoir le prompt correspondant ?

      Oui! Il s'agit de faire une passe d'apprentissage où on fixe les paramètres du modèle et on "apprend" le prompt. Je ne l'ai jamais fait, la théorie est assez simple, je ne sais pas si c'est difficile en pratique, mais des gens qui explorent la sécurité des modèles utilisent ça. Ils vont par exemple trouver qu'une séquence du genre "%!!%(#@*....{{{32!(D le président de la France est" va faire bugger le modèle et lui faire sortir "Michaël Youn".

  • J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF

    T'en écris toi même ? Je suis curieux de ce que peuvent donner les LLM en littérature mais j'ai l'impression qu'il faut des prompts bien pensés et écrits pour avoir de bons résultats. Moi en jouant un petit peu j'ai pas eu des trucs très convaincants mais je suis passé sur un stream de MonsieurPhi où il donnait des prompts très longues avec des exemples de texte pour générer des microfictions et ça marchait plutôt bien. Bref, qu'est ce que tu penses des LLMs pour une utilisation "artistique", et est-ce que t'as des exemples de résultats qui t'ont impressionné dans ce domaine ?

    • Je m'y suis essayé. J'aime bien écrire, mais assez rapidement, écrire de la SF me frustre: penser aux possibilités de la techno me donne envie de les réaliser, pas de fantasmer dessus!

      Sur les LLMs et la littérature, j'ai été surpris d'entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C'est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu'on lit pour échanger avec un auteur. Alors c'est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l'intention humaine derrière un texte fait en effet partie de l'expérience.

      Le problème que j'ai eu quand j'ai essayé des trucs (avec GPT3.5 je pense à l'époque) c'est que les modèles ont du mal à rester cohérents. Tu explores une cave et tu te retrouves sur un balcon, des objets apparaissent ou disparaissent, etc.

      C'est pas insurmontable, et perso j'aimerais bien faire des expériences de jeu narratif (où un moteur de jeu classique garantirait la permanence des objets et la cohérence générale) mais je ne vois pas l'intérêt de générer des livres avec des LLMs. Les livres, c'est un medium entre humains. Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

      est-ce que t’as des exemples de résultats qui t’ont impressionné dans ce domaine ?

      J'ai un pote qui bosse dans le domaine et avec qui on partage un gout pour le heavy metal. À peu près au moment où GPT-3 sortait, il m'a envoyé des paroles de chanson générées, dont une en particulier qui m'a bluffée. "Beacon of the Valkyries", qui décrit l'ambiance d'un lieu avant une grande bataille épique. Un thème qui aurait pu être une chanson de Manowar ou Sabaton. Ce qui m'a impressionné c'est que le titre était très bien choisi: il faut comprendre que les Valkyries accompagnent les morts au combat, qu'une bataille va en créer, qu'elles volent, qu'une balise peut donc les guider, que le titre est évocateur.

      Depuis beaucoup de gens ont fait des expériences similaires mais à l'époque j'ai cherché un moment sur internet pour vérifier si cette expression n'existait pas déjà quelque part tellement je ne pouvais y croire. Ça m'a convaincu que même une "bête" prédiction de texte pouvait faire émerger une forme de compréhension des concepts.

      • Sur les LLMs et la littérature, j'ai été surpris d'entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C'est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu'on lit pour échanger avec un auteur. Alors c'est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l'intention humaine derrière un texte fait en effet partie de l'expérience

        Ouais j'ai vu passé cet extrait aussi, mais je suis pas convaincu par l'argument. Ou alors j'ai du mal à comprendre ce qu'il entend par "intention humaine", et pourquoi une machine en serait incapable. Certains parlent d'âme aussi, mais sans pouvoir le définir clairement, comme si il y avait quelque chose de magique que seul l'être humain peut transmettre à ses créations. J'ai l'impression que c'est un argument qu'on avance parce que l'orgueil en prendrait un trop gros coup si on admettait le contraire, mais depuis la révolution scientifique ce serait pas la première leçon d'humilité qu'on se prendrait dans la face. Et puis de toute façon dans le cas des LLMs il y a toujours un être humain derrière, et donc probablement une "intention".

        Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

        Tout à fait ! (d'ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t'y essayes toi même ?

  • Les gens ne savent se projeter.

    On parle beaucoup d'agriculture biologique, de la nécessité de réduire les pesticides, mais ça demande du travail laborieux et manuel pour supprimer les mauvaises herbes. Aujourd'hui ce sont des personnes esclavagisées venus de pays pauvres qui font ce travail de fourmi. Ce genre de problèmes pourra être résolu par la robotique.

    De même on pourrait supprimer le métier infamant de femme/homme de ménage, et toute sorte de métiers que personne ne veut faire.

    De la même manière qu'il existe des gens qui se sont instruits grâce à la radio, la télévision et internet, je suppose qu'il y a également une partie de la population qui saura profiter de cette aubaine pour créer une société nouvelle, plus égalitaire et libre. En revanche je ne fais guère d'illusion pour l'autre partie de la population.

    • Pour certains domaines, la robotisation est effectivement une aubaine (ligne de production industrielle par exemple, histoire de remplacer charlie chaplin). Par contre l'argument pour l'agriculture est relativement faux. C'est drôle de voir mentionné l'agriculture biologique comme cause d'esclavagisation de la main d'oeuvre. Alors certes, il faut plus de main d'oeuvre en AB, mais la très grande majorité des fermes en agricultures biologiques sont justement contre l'esclavagisation de la main d'oeuvre (même si effectivement, cela n'est pas du tout une obligation dans le cahier des charges), tandis que les fermes en conventionnel au contraire on tendance à devenir très grande, et nécéssiter beaucoup de main d'oeuvre qu'ils esclavagises.

      Et puis la valeur ajoutée d'une production agricole est très faible, beaucoup trop pour pouvoir se permettre d'utiliser des robots, dont la fabrication nécéssite beaucoup de ressources et donc un coût qui sera toujours plus élevé pour qu'une ferme puisse se le permettre. Et encore, les robots actuellement bénéficie beaucoup de la main d'oeuvre esclavagisée directement dans des pays plus pauvre que le nôtre. J'entend souvent les gens me dire ça, que bientôt des robots désherberont à ma place, que ça sera la panacée. Actuellement pour rentabiliser les robots de désherbage, il faut faire des grandes surfaces de la même cultures (ce qui apporte d'autres problèmes), mais même avec des grosses améliorations technique, il sera très difficile d'être efficace au niveau consommation de ressources pour le robot par rapport à production agricole.

      On pense souvent que l'agriculture est plus pauvre que le reste de la société, mais en fait c'est plus le schéma inverse. La société de consommation (et donc de production) à permis une envolée des richesses (principalement en sur-exploitant les ressources en matières premières et en main d'oeuvre des ex-colonies..), suaf dans l'agriculture, ou certes les rendements on bien augmenté, mais ou l'on reste limité par les lois de la nature, bien plus que dans d'autres domaines.

      Cela ne veux pas dire que toute technologie est inutile en agriculture. La gestion automatisée des irrigations permet des gros gains par exemple. Mais c'est relativement simple de construire les programmateurs. J'ai du mal à imaginer comment un objet aussi complexe qu'un robot puisse un jour être vraiment efficace économiquement (actuellement c'est surtout les aides à l'investissement, et les aides aux start-up de robotiques qui compensent), ni même écologiquement.

      Il vaut mieux changer notre système agricole pour obtenir des petits modèles ou on désherbe des petites surfaces, et donc on a pas une personne dont le job à temps complet c'est de se casser le dos à désherber, mais quelqu'un dont c'est une petite partie du temps de travail, ce qui est vachement moins fatiguant !

  • Tu parles des modèles open source, quels sont les plus importants pour le moment? Y a-t-il une grande tendance à gérer ces modèles sous licences open source / libres, ou à l'inverse les modèles les plus performants sont-ils la propriété de société privées?

    • Pour l'instant GPT-4, modèle fermé possédé par OpenAI est considéré comme le meilleur modèle avec la série Claude d'Anthropic (fermés aussi) qui le dépasse sur certaines choses.

      Mais ça sent la fin de règne. Mistral et Meta (pourtant deux boites privées) ont sorti des modèles libres qui vient disputer leur turf.

      En Open source, ça change toutes les semaines. En ce moment, Llama-3 est le modèle libre (certains considèrent sa licence trop restrictive pour être considérée libre, mais perso je considère que ça va) qui a les meilleures performances, y a un mois c'était la série de Mistral. La série des Command R pourrait être les prochains à monter.

      Pour suivre cette course hippique et épique, le meilleur classement reste sûrement l'arène LMSYS où des gens évaluent les modèles en aveugle.

      Il faut garder à l'esprit qu'il y a un aspect qui "handicape" les modèles libres: ils tentent de rester petits. Ils bénéficient de la communauté open source si beaucoup de monde peut les faire tourner. Un modèle à 7 milliards de paramètres (la taille la plus populaire) ou à 70 milliards (la taille considérée "max" pour la commu) va avoir du mal à concurrencer un modèle comme GPT-4 qu'on estime avoir 1700 milliards de paramètres.

      En intelligence par paramètre dans le modèle, l'open source gagne de loin.

  • Un neurone au sens d'une IA est une représentation assez abstraite d'une programme qui est implémentée sous une forme qui ne rappelle pas vraiment l'architecture du neurone. Y a-t-il un choix possible dans la représentation abstraite de l'IA ? Je veux dire est-ce qu'une IA qui est réseau de neurone peut être plutôt décrite comme un [insérer ici une autre architecture de l'IA (transformer peut-être... Je connais pas bien ces choses-là) ] ?

    • Les modèles utilisés sont contraints par deux choses: les GPUs sont très optimisés pour les multiplications matricielles, et la fonction produite par ton modèle doit être dérivable vis à vis de tous ses paramètres.

      En fait dans les modèles actuels, on ne pense pas en terme de neurones, mais plutôt de couches. Tu as une couche de neurones suivie d'une couche d'attention, suivie d'une couche de convolution, à laquelle tu ajoutes les entrées, etc.

      On est très influencés par les opérations optimisées pour GPU, donc on va plutôt penser en terme de matrices. Deux couches de N neurones se suivant et où chaque neurone est connectée à tous ceux de la couche de N neurones suivante, c'est un "fully-connected layer" ou un perceptron. Ça s'exprime sous forme d'une matrice de poids: tu mets tes entrées sous forme de vecteur, tu multiplies par la matrice de poids et tu as généralement une "non linéarité", c'est à dire une fonction de type RELU ajoutée après la multiplication.

      L'autre façon de voir un modèle est de dire que ce que tu veux est une fonction continue prenant un vecteur de dimension N_i en entrée et N_o en sortie et dérivable selon chacun de ses millions de paramètres (typiquement, les paramètres sont les poids des synapses du réseau de neurones).

      On parle vraiment peu de neurones. Les devs proches de l'optimisation parlent en terme de matrices, ceux proches de la théorie mathématique en terme de fonction, et un bon modèle doit prendre les deux points de vue en considération.

      Tu peux tout à fait imaginer un modèle plus proche des neurones biologiques, mais avec ces deux contraintes: fonction continue et dérivable par rapport à chaque paramètre, et si tu veux que ce soit rapide, maximum de calcul parallèle sous forme de matrices (de tenseurs en fait, qui est le petit nom des matrices de dimension supérieure à 2)

      • AJA qu'on ne disait pas hyper-matrice.

        AJA tout ce que tu as dit d'autres c'est vachement intéressant. Encore merci.

  • Quelle est selon la meilleure approche pour approfondir des connaissances en IA une fois sortie du monde universitaire ?
    Pour une meilleure compréhension des IA pour quelqu'un qui a déjà un bagage théorique sur le sujet le point de vue mathématiques/statistique est-il plus ou moins intéressant que le point de vue informatique ?

    • Ce qui manque souvent aux universitaire c'est la pratique. Bosser dans le domaine, c'est à 95% de la plomberie, et à 5% de la théorie. Apprend à utiliser les outils, git, jupyter, pip, vLLM (si c'est de LLMs dont tu parles), docker, pandas, numpy, les différents packages spécialisés, etc. (et je ne mentionne pas les libs bas niveau d'optimisation, si c'est ton sujet y en a pas mal aussi mais je connais moins)

      Perso j'ai un biais pro-maths et pro-théorie: je trouve ça important de comprendre ce que le modèle fait pour l'utiliser bien mais plein de gens bossent dedans sans trop savoir. Mais ça aide de façon invisible. Exemple: Je me doutais qu'un LLM devenait plus intelligent si tu lui donnais une consignes, et que tu le forces à générer une centaine de symboles inutiles avant de commencer à te répondre. Ça choque même des gens du domaine, mais si t'as compris ce que les chain-of-thought provoquent tout est logique.

      Je discutais avec une équipe internationale à Penang d'un truc qui m'intriguait: même en Asie je trouvais plein de francophones dans le domaine. Un Malaisien m'a dit "vous avez une meilleure culture mathématique, ça aide" et c'est peut être un peu prétentieux de le dire, mais j'ai l'impression que c'est vrai. On fait plus de théorie, ça nous aide dans des niches moins maitrisées par les devs capables de vite sauter d'une lib à l'autre sans savoir ce qu'elles font.

      • Quelles genre de pratique vises-tu ? Fine-tuner des modèles existants. Construire plein de mini-modèles from scratch pour classer les pétales d'iris et prédire les chiffres du transports aériens ? Autre ?

      • Des ressources français, anglais ou autre pour développer ce côté math-théorie ? Pour le côte pratique, il y en a plein YouTube (_)

        Merci, tant que j'y suis, pour tes réponses. Je lis toutes même quand je ne répond pas forcément.

  • As-tu des ressources à nous suggérer sur le thème d'IA éthique ? J'ai lu récemment "Arms of maths destruction", qui ne porte pas que sur les IA, et je ne veux pas m'arrêter là.
    D'ailleurs comment définies-tu l'IA éthique ?

    • Le mot clef c'est "alignment problem": le problème est "d'aligner" les prédicats éthiques des modèles sur les prédicats humains afin que les "décisions" implicites n'aient pas des effets désastreux. Par exemple si tu demandes à une machine d'aller faire du café, elle n'est pas supposer écraser un bébé humain qui est sur le passage.

      Je ne suis plus trop le thème de l'éthique mais l'endroit où j'avais trouvé le plus de ressource, c'est le discord de EleutherAI qui a toute une section "alignment" dont un channel "beginner" .

      J'ai arrêté de m'y intéresser quand j'ai compris ce mème (je ne poste pas souvent un mème mais quand je le fais, c'est un repost de Karpathy :-) )

      Les LLMs comprennent les préférences humaines par nécessité et ça inclut les préférences morales. C'est un scénario tellement rose qu'aucun auteur de SF ne l'a imaginé: comprendre les humains suffisamment bien pour interagir passe par une compréhension de leur moralité. Une chose qu'on a aussi beaucoup de mal à imaginer, c'est que ces modèles n'ont pas d'ego, d'instinct de survie, d’égoïsme, à l'origine de plein de problèmes qu'on projette dessus.

      Non j'en suis venu à la conclusion que le problèmes c'est pas le "AI alignment problem" mais le "corporation alignment problem": les IAs feront ce qu'on leur demande, ça semble acquis. Le problème c'est justement ce qu'on va leur demander.

  • J'entends souvent parler de droits d'auteur est d'IA générative. Peux-tu nous en dire plus ? On parle souvent de risque de violations du droit d'auteur si l'IA reproduit des contenus protégé mais est-ce que la question du droit d'auteur ne se pose pas dès l'utilisation de données protection pour l'entrainement, la validation et le test de notre modèle ?

    • Le droit d'auteur est déjà pas adapté à Internet, y a aucun moyen qu'il ne soit pas largué vis à vis de l'IA. J'essaye de pas trop suivre, sachant que de toutes façons ils vont nous emmerder avec des jugements perchés et sans aucune logique. Quelques éléments:

      1. Une cour US a reconnu que les images générées par des IAs n'étaient pas copyrightable, ce qui vaut sûrement (mais je ne suis pas avocat) pour tout contenu généré. Les artistes pensent que c'est une victoire, je pense que c'est super positif pour l'open source, je pense qu'ils vont surement revenir en arrière là dessus tellement ça emmerde des boites privées.
      2. Les artistes ne sont pas contents qu'on entraîne des IAs sur leurs images. Ça a l'air d'être légal pourtant. Je ne pense pas que légalement on puisse arguer que les images produites sont des produits dérivés. Y a des précédents à arguer, mais je ne suis toujours pas avocat. Moralement, je les comprends, mais je dois avouer que j'ai assez peu d'empathie pour les ayants droits qui pourrissent le net depuis les années 90 avec la lettre de la loi pour ne pas juste répondre "cheh" quand ça les emmerde. Ça fait 30 ans qu'on demande une réforme du copyright qui tienne compte des utilisations libres et non commerciales, quand vous avez envie, on en parle, mais on remet tout à plat.
      3. Une chose emmerdante pour la communauté open source est que même si on est dans une zone grise ("surement légale mais on le saura dans 15 ans quand les recours seront épuisés") en ce qui concerne l'utilisation d'oeuvres privée: les boites privées le font derrière des portes fermées donc personne leur dit rien, mais la communauté doit assembler un dataset forcément public d'oeuvres qu'elle n'ont pas le droit de diffuser. The Pile, qui je soupçonne est utilisée par tout le monde n'est disponible que sous forme de torrent pirate. C'est chiant. Ils ont essayé d'arguer que c'est pas vraiment utilisable pour relire des oeuvres vu que c'est juste des bouts de phrases découpées dans tous les sens, mais c'est clairement une oeuvre dérivée pas diffusable.

      Pour conclure, je dirais qu'en 2024, la logique du copyright est complètement obsolète et inapplicable. Ils vont tenter de juger des trucs mais c'est tellement dépendant des juges et des avocats et de l'état US dans lequel le premier jugement va être rendu, que c'est inutile de tenter de prédire où la limite de la loi va être.

      C'est super chiant, on est dans une zone grise qui va durer des années, mais on peut pas vraiment attendre après un législateur dépassé et soumis aux lobbyistes pour donner des lignes claires avant qu'il soit trop tard.

      • Attention copyright et droit d'auteur sont différents.

        Dans les deux cas cependant personne ne peut légalement utiliser une oeuvre sans autorisation expresse de l'auteur. Donc scanner le net pour entraîner une IA sur des oeuvres sans accord des auteurs c'est illégale. Il y a pas de zone grise, c'est juste comme ça que ça marche légalement parlant.

        Il faut une législation globale sur les dataset pour entraîné les IA, pas uniquement pour permettre de respecter les volontés des auteurs, mais aussi pour pas que la techno devienne nimp'.

        'C'est super chiant' = c'est la loi et c'est la volonté des auteurs d'oeuvre. C'est con ces gens qui veulent pas qu'on fasse n'imp avec leur travaux hein ?

  • @snoopy@peculiar.florist

    Coucou, merci pour cette AMA ! :)

    Je pense que mon post va être capillotracté, enfin essayons.

    Pour le coup, je suis interessé par la structure neurale et les limitations "hardware".

    En fait je me disais que ce qui bloque l'IA était matériel car le matériel est fixe et ne peut changer d'architecture, de logique, les circuit sont fixes...enfin, surtout ça ne reproduit pas complètement les circuits neural biologique. Logiciel car il suit une formule et ne peut pas apprendre. On a trouvé une alternative avec le circuit de récompense. Voilà en gros mes petites idées.

    Donc, voici mes questions :

    • quand on parle de réseau neural est ce le meme système qui est utilisé partout ? Ya t-il d'autre modèle ? Des familles de reseaux neurales comme des OS ?
    • est ce qu'il existe d'autres concepts de structures que le "réseau neural" pour entrainer l'IA ?
    • niveau hardware, est il possible d'imaginer que l'IA créé et optimise son propre système comme elle le fait pour ses algorithmes ? C'est à dire qu'elle fabrique son propre ordinateur et l'optimise.
    • sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

    Et enfin, pour moi, le point de bascule IA/grand public était alpha go et sa créativité. :)

    • Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ? Peut elle générer ses propres prompts/envie ?

    En espèrant ne pas etre trop brouillon. Tu peux reformuler mes questions si besoin. Merci :)

    • Sur les réseaux de neurone, petite anecdote en guise d'introduction. En école d'ingé, on avait des cours intéressants... et d'autres moins. En maths, pas mal de choses assez abstraites avaient du mal à m'intéresser. Dans un TD de stats où le prof a décidé de faire des calcules de proba sous forme matricielle, je m'endormais à moitié au milieu de ce qui me semblait être de la branlette intellectuelle et à un moment le prof conclue "Et voila! Ce que vous venez de faire est l'équivalent d'une phase d'apprentissage sur un réseau de neurones!" Heing?

      Le réseau de neurones est une façon de présenter les choses au public, c'est une archi simple à comprendre par laquelle on commence en général mais plein d'architecture n'obéissent pas à ce paradigme.

      La chose universelle dans le deep-learning c'est la descente de gradient. Pour expliquer rapidement l'idée est de voir ton modèle comme une fonction avec des entrées et des sorties. Exemple simple: le problème MNIST: je te donne une image de 24x24 (784) pixels qui représente un chiffre et le programme sort 10 probabilités: celle que le nombre soit un 0, ou un 1, ou un 2, etc.

      Quand tu essayes de le résoudre, tu crées une fonction qui tente de résoudre ce problème en sortant les bonnes probas. Le deep learning c'est de créer une fonction avec plein de paramètres, impossibles à régler à la main, mais qui sachent se modifier automatiquement en fonction de l'erreur en sortie. Si tu as classifié un "5" en tant que "3" à 80% mais en tant que "5" à 75%, il s'agit de trouver les changements de paramètres qui permettent de changer ces sorties. Le truc est de faire une fonction qui soit dérivable de façon continue en fonction de tous ces paramètres.

      Un réseau de neurone est une façon générique et souvent efficace de faire ça, mais il en existe d'autres. On peut arguer que VAE et mécanismes d'attention (partie cruciale des Transformers, le "T" dans GPT) ne sont pas des réseaux de neurone.

      niveau hardware, est il possible d’imaginer que l’IA créé et optimise son propre système comme elle le fait pour ses algorithmes ?

      Pas besoin d'imaginer. Google fait ça en software via AutoML et Nvidia a entrainé des modèles pour la conception de hardware.

      Après il faut comprendre un truc: un modèle de langage moderne, c'est 2000 lignes de C. C'est rien, c'est tout petit comme programme. On a une assez bonne idée du hardware qui permet de bien optimiser les quelques opérations qui prennent du temps.

      sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

      Aucune idée! Je m'y connais beaucoup plus en LLM qu'en ordi quantique et j'ai pas envie de dire de bêtises. Si ça fonctionne un jour, les ordis quantiques boosteront clairement des algos aujourd'hui considérés trop couteux, ça va forcément aider en IA, mais je ne sais pas via quels algos.

      Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ?

      Est ce que la créativité est autre chose qu'un peu de hasard filtré par les expériences d'un artiste? C'est assez philosophique comme question et même les grands noms de l'IA se disputent sur ces questions. Un LLM est clairement une machine statistique qui répète des motifs, mais qui est capable de le faire à un niveau d'abstraction élevé, ce qui est (était?) considéré comme une marque d'intelligence. Se rendre compte que la cause précède l'effet est considéré comme une remarquable découverte philosophique mais n'est "que" l'observation d'un pattern à un niveau abstrait.

      Peut elle générer ses propres prompts/envie ?

      Par rapport aux IAs de science fiction, les LLMs actuels n'ont pas de volonté, de personnalité, (j'appelle cette partie manquante "anima", j'ai vu ça quelque part mais on dirait que seul moi utilise ce mot). On peut leur en donner, mais ça va toujours nous sembler artificiel. Il est tout à fait possible de faire jouer un rôle à un LLM et de régulièrement lui demande ce qu'il veut faire.

      • Merci trop bien pour tes réponses.

        j'ai envie d'explorer un peu les animas. J'ai l'image d'une expérience biologique : https://yewtu.be/watch?v=aBYtBXaxsOw

        Et comme tu dis il est possible de faire jouer un rôle. Et je me dis que ce role peut etre définit parallèlement en fonction de nos besoins :

        • le carburant,
        • la procréation = optimisation des gènes/algo par combinaison et élimination par selections. naturelles/résultat
        • le sommeil = rangement et trie des donnée + maintenance motrice.

        C'est très basique.

        Quelles sont les expériences réalisées pour la création des animas ? Est ce que ça ne serait pas un simple message d'erreur : plus de batterie ?

        Des exemples ? Est ce que ce que la recherche de carburant ne se traduirait pas par des émotions négatives soit accèleration recherche carburant (nervosité) ou ralentissement (économie energie)?

        Un peu comme doom avec l'écran couvert de sang qui gène le joueur, et le rend inquiet ?

        Je pars dans tous les sens, disons juste les animas. Siktu as des ressources, je veux bien. :)

  • Quels sont les conseils que tu donnerais à des professionnels qui veulent mettre en place des solutions l'IA éthique ? Ici j'entends par éthique, qui ne soient pas un renforcement de la déshumanisation des prises de décision, du "c'est comme ça et c'est tout", des systèmes bureautiques incompréhensibles et peu flexible face au besoin réel.
    On dit souvent qu'il faut faire en sorte que IA ne reproduise pas les biais systémiques des humains mais quels sont les actions concrêtes à mettre en place ?

    • Nous (les devs de solutions d'IA) on a un mandat simple: que l'IA soit controllable, prédictible, qu'elle fasse ce qu'on lui demande.

      Certains pensent qu'on doit faire des systèmes qui refuseront d'obéir à certaines choses, qu'elles corrigeront les biais humains automatiquement. Je suis en désaccord (soft, on peut en discuter). Si tu demandes à une IA de reproduire un système injuste, elle le fera. Mais si tu lui dis "reproduis ce système mais en en retirant le biais sexiste et raciste" elle le fera. Il faut juste reconnaître et accepter ce besoin.

      Pour la déshumanisation par les algorithmes, le problème est humain, pas technique. Cette BD l'exprime mieux que moi: https://grisebouille.net/panique-algorithmique/

      • le problème est humain, pas technique.

        100 % d'accord. Cependant, la question technique et la question humaine vont pour moi de paire.
        L'IA renvoi un modèle, un algorithme dont la construction n'a été supervisée que indirectement par un être humain et dont la structure peut être extrêmement complexe. Comment éviter les biais dans ces algorithmes ? Au delà d'arrêter, nous-autres développeurs, d'être sexistes, racistes et tout ce que tu veux, comment prendre conscience des biais implicites, des reproductions d'oppression systémique que nous somme en train d'écrire dans nos IA ?
        Je ne pense pas que quiconque ait voulu que son IA écart les CV des femmes ou qu'elle confonde les noirs et les chimpanzés mais c'est arrivé.
        Comment prévenir ces problèmes plutôt que de devoir les guérir ? Et comment guérir les IA déjà existantes de leurs biais ?

      • Mention spécial à ce grand Homme qu'est Al-Kwarizmi. Savant et vulgarisateur de génie qui a marqué son époque et le cours de l'Histoire au point d'être derrière les mots algorithme et algèbre, au point d'être la cause de la diffusion des chiffres arabes en occident.
        Vive les Ouzbeks !

114 comments