Skip Navigation

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Hello!

bon slrpnk.net a l'air d'être dans les choux alors je lance ce post avec mon compte de secours jlai.lu

Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l'anglais. Et je trouve qu'en français, ben y a pas grand chose. C'est presque uniquement du discours dystopique mal informé.

Rien sur la recherche sur l'alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.

On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d'une forêt bien plus grande.

Perso ça va faire 5 ans que je fais du deep learning professionnellement. J'ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c'est un projet plus ou moins mort, mais c'était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d'autres.

J'ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J'ai réussi à passer au 4/5e l'année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j'utilise des modèles de deep learning pour la vision).

Ça fait plus de 20 ans que j'ai réalisé que l'IA a le potentiel de changer le monde pour le mieux, c'est pas par hasard que j'ai essayé de m'orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d'aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.

J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!

Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!

Voila, je préférerais qu'on reste sur ces thèmes mais AMA anyway!

You're viewing a single thread.

114 comments
  • @snoopy@peculiar.florist

    Coucou, merci pour cette AMA ! :)

    Je pense que mon post va être capillotracté, enfin essayons.

    Pour le coup, je suis interessé par la structure neurale et les limitations "hardware".

    En fait je me disais que ce qui bloque l'IA était matériel car le matériel est fixe et ne peut changer d'architecture, de logique, les circuit sont fixes...enfin, surtout ça ne reproduit pas complètement les circuits neural biologique. Logiciel car il suit une formule et ne peut pas apprendre. On a trouvé une alternative avec le circuit de récompense. Voilà en gros mes petites idées.

    Donc, voici mes questions :

    • quand on parle de réseau neural est ce le meme système qui est utilisé partout ? Ya t-il d'autre modèle ? Des familles de reseaux neurales comme des OS ?
    • est ce qu'il existe d'autres concepts de structures que le "réseau neural" pour entrainer l'IA ?
    • niveau hardware, est il possible d'imaginer que l'IA créé et optimise son propre système comme elle le fait pour ses algorithmes ? C'est à dire qu'elle fabrique son propre ordinateur et l'optimise.
    • sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

    Et enfin, pour moi, le point de bascule IA/grand public était alpha go et sa créativité. :)

    • Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ? Peut elle générer ses propres prompts/envie ?

    En espèrant ne pas etre trop brouillon. Tu peux reformuler mes questions si besoin. Merci :)

    • Sur les réseaux de neurone, petite anecdote en guise d'introduction. En école d'ingé, on avait des cours intéressants... et d'autres moins. En maths, pas mal de choses assez abstraites avaient du mal à m'intéresser. Dans un TD de stats où le prof a décidé de faire des calcules de proba sous forme matricielle, je m'endormais à moitié au milieu de ce qui me semblait être de la branlette intellectuelle et à un moment le prof conclue "Et voila! Ce que vous venez de faire est l'équivalent d'une phase d'apprentissage sur un réseau de neurones!" Heing?

      Le réseau de neurones est une façon de présenter les choses au public, c'est une archi simple à comprendre par laquelle on commence en général mais plein d'architecture n'obéissent pas à ce paradigme.

      La chose universelle dans le deep-learning c'est la descente de gradient. Pour expliquer rapidement l'idée est de voir ton modèle comme une fonction avec des entrées et des sorties. Exemple simple: le problème MNIST: je te donne une image de 24x24 (784) pixels qui représente un chiffre et le programme sort 10 probabilités: celle que le nombre soit un 0, ou un 1, ou un 2, etc.

      Quand tu essayes de le résoudre, tu crées une fonction qui tente de résoudre ce problème en sortant les bonnes probas. Le deep learning c'est de créer une fonction avec plein de paramètres, impossibles à régler à la main, mais qui sachent se modifier automatiquement en fonction de l'erreur en sortie. Si tu as classifié un "5" en tant que "3" à 80% mais en tant que "5" à 75%, il s'agit de trouver les changements de paramètres qui permettent de changer ces sorties. Le truc est de faire une fonction qui soit dérivable de façon continue en fonction de tous ces paramètres.

      Un réseau de neurone est une façon générique et souvent efficace de faire ça, mais il en existe d'autres. On peut arguer que VAE et mécanismes d'attention (partie cruciale des Transformers, le "T" dans GPT) ne sont pas des réseaux de neurone.

      niveau hardware, est il possible d’imaginer que l’IA créé et optimise son propre système comme elle le fait pour ses algorithmes ?

      Pas besoin d'imaginer. Google fait ça en software via AutoML et Nvidia a entrainé des modèles pour la conception de hardware.

      Après il faut comprendre un truc: un modèle de langage moderne, c'est 2000 lignes de C. C'est rien, c'est tout petit comme programme. On a une assez bonne idée du hardware qui permet de bien optimiser les quelques opérations qui prennent du temps.

      sur un ordinateur quantique, quel serait les changements ? Ya des changement de logique ?

      Aucune idée! Je m'y connais beaucoup plus en LLM qu'en ordi quantique et j'ai pas envie de dire de bêtises. Si ça fonctionne un jour, les ordis quantiques boosteront clairement des algos aujourd'hui considérés trop couteux, ça va forcément aider en IA, mais je ne sais pas via quels algos.

      Est ce que une IA/LLM peut etre créative ou est ce un set de probabilité ?

      Est ce que la créativité est autre chose qu'un peu de hasard filtré par les expériences d'un artiste? C'est assez philosophique comme question et même les grands noms de l'IA se disputent sur ces questions. Un LLM est clairement une machine statistique qui répète des motifs, mais qui est capable de le faire à un niveau d'abstraction élevé, ce qui est (était?) considéré comme une marque d'intelligence. Se rendre compte que la cause précède l'effet est considéré comme une remarquable découverte philosophique mais n'est "que" l'observation d'un pattern à un niveau abstrait.

      Peut elle générer ses propres prompts/envie ?

      Par rapport aux IAs de science fiction, les LLMs actuels n'ont pas de volonté, de personnalité, (j'appelle cette partie manquante "anima", j'ai vu ça quelque part mais on dirait que seul moi utilise ce mot). On peut leur en donner, mais ça va toujours nous sembler artificiel. Il est tout à fait possible de faire jouer un rôle à un LLM et de régulièrement lui demande ce qu'il veut faire.

114 comments