Comment fonctionnent vraiment les LLM : ce que tout marketer doit savoir avant d’utiliser l’IA

Schéma coloré du fonctionnement d’un modèle IA génératif
Illustration stylisée des étapes clés d’un modèle d’IA générative. De la tokenisation à la génération, chaque bloc représente une phase du traitement du langage.

GPT-4 a été entraîné sur environ 13 000 milliards de tokens. Pour calibrer : si un roman fait 100 000 mots, il faudrait empiler 130 millions de livres pour atteindre ce volume. Et GPT-4 n’est pas le plus grand modèle en service. DeepSeek R1, sorti en janvier 2025, aligne 671 milliards de paramètres pour un coût d’inférence bien inférieur à ses équivalents américains. Ces chiffres circulent dans les présentations marketing mais ils disent peu de chose sur ce qu’un LLM fait vraiment et sur les angles morts que tout professionnel qui l’utilise devrait connaître.

Ce qu’un LLM calcule réellement

Un LLM ne « comprend » pas une phrase. Il calcule des probabilités. Chaque token produit est le résultat d’une fonction mathématique qui pondère les relations entre des millions de paires de mots vus pendant l’entraînement. L’architecture Transformer, publiée par Google en 2017 sous le titre « Attention is All You Need », repose sur un mécanisme d’attention : le modèle apprend à quel point chaque mot d’une séquence influence la prédiction du mot suivant.

Quand un LLM génère la réponse à un brief de campagne, il ne cherche pas la bonne réponse. Il cherche la séquence de tokens statistiquement la plus probable étant donné le contexte fourni. C’est une distinction opérationnelle, pas philosophique : elle explique pourquoi un modèle peut produire un texte impeccable sur un sujet qu’il maîtrise et inventer des faits avec la même fluidité sur un sujet sous-représenté dans ses données d’entraînement.

Selon Epoch AI, le ratio tokens/paramètre est passé d’environ 10 en 2022 à 250 en 2025 pour les modèles open-weight. Les modèles récents voient beaucoup plus de données par neurone artificiel que leurs prédécesseurs, ce qui améliore la cohérence factuelle sur les sujets couverts, sans éliminer les lacunes sur ce qui n’était pas dans le corpus.

Le problème des hallucinations n’est pas résolu

En 2024, 39% des bots IA déployés en service client ont été retirés ou reconstruits en raison d’erreurs factuelles, selon SQ Magazine. Les déploiements enterprise tournent autour de 18% de taux d’hallucination dans les interactions réelles.

Détecter les hallucinations est difficile parce qu’elles ne ressemblent pas à des erreurs : elles ressemblent à du contenu bien écrit. Un LLM qui invente une statistique la présente avec le même registre stylistique qu’une donnée vérifiée, sans signal typographique, sans signal syntaxique. La détection passe par la vérification manuelle ou par des prompts de mitigation structurés. Une étude publiée dans Nature en 2025 mesure une réduction de 22 points de pourcentage avec des instructions explicites sur la gestion de l’incertitude.

Les taux varient fortement selon la tâche. Sur la synthèse de documents sources, les meilleurs modèles descendent en dessous de 2% en 2025. Sur les questions factuelles sans contexte fourni, les mêmes modèles peuvent dépasser 20%.

Pourquoi la fenêtre de contexte change les usages marketing

128 000 tokens : c’est la fenêtre de contexte devenue standard en 2025 chez les principaux fournisseurs. Un token représente environ 0,75 mot en anglais, légèrement moins en français. Un LLM peut donc traiter en une seule passe un document de 80 à 90 000 mots, soit une étude de marché complète, un brief annuel, plusieurs transcriptions d’interviews clients.

Plus la fenêtre est large, plus le modèle peut maintenir la cohérence sur une tâche longue et croiser des informations éloignées dans un document. Mais ce qui entre dans le contexte doit être sélectionné avec soin. Les LLM ont tendance à accorder plus de poids aux tokens en début et en fin de fenêtre, un effet documenté appelé « lost in the middle », mesuré dès 2023 par des chercheurs de Stanford.

Temperature et top-p : les réglages que personne n’explique

La plupart des interfaces grand public masquent les paramètres de sampling. Dans les API et les outils no-code avancés, deux réglages déterminent directement la nature des sorties : la température et le top-p (nucleus sampling).

La température contrôle l’entropie de la distribution de probabilité sur le vocabulaire. Une température de 0 rend le modèle déterministe : il choisit toujours le token le plus probable. Une température de 1 laisse la distribution naturelle. Au-delà, la distribution s’aplatit et les tokens improbables gagnent en influence, utile pour la génération créative, contre-productif pour les tâches factuelles comme la synthèse de données ou la rédaction de briefs techniques. En pratique, une température entre 0.2 et 0.5 convient à la grande majorité des usages marketing structurés.

Le top-p restreint le pool de tokens considérés à ceux dont la probabilité cumulée atteint le seuil p. Fixer top-p à 0.9 écarte les tokens très improbables sans figer le modèle sur un seul choix. Ces deux paramètres interagissent ; les modifier sans comprendre leur mécanique peut produire des sorties soit trop prévisibles, soit incontrôlables.

Ce que le fine-tuning change et ce qu’il ne change pas

Un LLM de base prédit du texte. Le fine-tuning et surtout le RLHF, c’est-à-dire l’apprentissage par renforcement à partir de retours humains, transforme ce prédicteur en assistant : le modèle apprend à favoriser les réponses que les annotateurs humains ont jugées utiles et sûres. C’est ce mécanisme qui distingue GPT-4 ou Claude d’un modèle brut comme GPT-2.

Mais le fine-tuning n’injecte pas de connaissance nouvelle ; il oriente le comportement du modèle sur la connaissance acquise pendant le pré-entraînement. Un modèle dont la date de coupure est mars 2024 ignore les faits survenus après, même avec un fine-tuning récent. Pour les équipes marketing qui utilisent des LLM pour surveiller des tendances ou rédiger sur des actualités, la date de coupure est un paramètre à vérifier systématiquement. Elle est rarement mise en avant dans les interfaces produit.

Le RAG (Retrieval-Augmented Generation) est l’approche standard pour contourner cette limite : le modèle reçoit dans son contexte des documents récupérés en temps réel avant de générer sa réponse. Perplexity et les AI Overviews de Google fonctionnent sur ce principe. La qualité du retrieval détermine alors autant la qualité de la sortie que le modèle lui-même.

Marché LLM : l’état des lieux en 2025

Le marché mondial des LLM était valorisé à 6,4 milliards de dollars en 2024. Les projections le portent à 36,1 milliards d’ici 2030. La concentration est forte : OpenAI, Anthropic, Google et Meta concentrent la majorité des modèles de référence mais l’émergence de modèles open-weight compétitifs comme LLaMA 3 ou DeepSeek R1 redistribue les cartes du côté des coûts d’inférence.

Pour une équipe qui standardise un LLM dans son workflow, la fragmentation du marché crée un angle mort supplémentaire : les comportements varient d’un modèle à l’autre, y compris sur des tâches identiques. Un prompt optimisé pour Claude peut produire des résultats différents sur GPT-4o ou Mistral. Les benchmarks publics mesurent des capacités générales. Ils ne disent rien sur la performance d’un modèle précis sur un cas d’usage précis.

Le modèle n’a pas d’intention, pas de mémoire entre les sessions sans architecture dédiée et aucune notion de ce qui est vrai au sens factuel. La fenêtre de contexte s’élargit chaque trimestre. Les hallucinations, elles, ne disparaissent pas.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *