Les grands modèles de langage (LLM) sont au cœur de la vague actuelle de l’IA générative. Ce module d’introduction pose les bases nécessaires pour travailler avec eux de façon lucide : qu’est-ce qu’un LLM, comment on l’entraîne, et surtout — quelles sont les limites qu’on ne voit pas toujours quand on se contente d’envoyer des prompts.
On part des fondations : un LLM est un modèle statistique entraîné à prédire le prochain token dans une séquence de texte. Derrière cette définition modeste se cachent des milliards de paramètres, des pétaoctets de données d’entraînement, et une architecture dite “Transformer” qui a bouleversé le traitement du langage depuis 2017. Comprendre ce mécanisme de prédiction token par token change radicalement la façon dont on interprète les sorties d’un modèle, notamment les fameuses “hallucinations”.
Le module couvre ensuite les trois étapes d’entraînement qu’on retrouve dans les LLM modernes (pré-entraînement, fine-tuning supervisé, alignement par RLHF), les notions de contexte et de fenêtre de contexte, et un premier aperçu des différences entre modèles ouverts et fermés. À la sortie, vous saurez lire une fiche de modèle, comparer deux LLM sur des critères objectifs, et identifier les cas d’usage où ils excellent — et ceux où ils restent incertains.