Chain-of-thought prompting : +74 % de précision, à quel prix ?

En janvier 2022, Jason Wei et ses collègues du Google Brain publient un papier de 43 pages sur arXiv. Le titre est sobre : Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Ce qu’ils démontrent est précis : en ajoutant quelques étapes de raisonnement intermédiaires dans le prompt, le modèle PaLM 540B passe de 17,9 % à 58 % sur GSM8K, le benchmark de problèmes mathématiques en langage naturel. Pas une amélioration marginale. Un facteur 3.

Le chain-of-thought prompting (CoT) consiste à demander explicitement au LLM de décomposer son raisonnement avant de produire une réponse finale. Au lieu d’interroger directement, on guide le modèle à travers des étapes logiques intermédiaires. La sortie est plus précise, plus auditable, souvent plus utile en contexte marketing.

Si vous utilisez ChatGPT au feeling avec des prompts dispersés dans 14 Notion différents, cette technique restera un concept de plus. Ce qui suit est une explication fonctionnelle, avec les limites que la recherche a documentées depuis 2022.

Ce qu’un prompt « pense étape par étape » change concrètement

La formulation la plus simple du CoT est l’instruction think step by step ajoutée à la fin d’un prompt. C’est le zero-shot CoT, introduit par Kojima et al. en 2022. Cela suffit, dans la plupart des cas, à forcer le modèle à externaliser son raisonnement avant de conclure.

La variante plus robuste est le few-shot CoT : on fournit au modèle deux ou trois exemples résolus avec le raisonnement explicité, puis on pose la question cible. Le modèle imite la structure de résolution. C’est utile pour les tâches répétitives en contexte marketing : scoring de leads, qualification d’objections, analyse de verbatims clients.

Du point de vue du system prompt, ce qui change est la logique d’allocation des tokens. Sans CoT, le modèle produit une réponse directe et compacte, souvent approximative sur les tâches complexes. Avec CoT, les tokens de raisonnement précèdent la réponse finale. Le token cost augmente. La précision aussi, dans les bons cas.

Un point structurel à noter : le CoT n’améliore pas les performances sur les tâches factuelles simples. Il cible les tâches à raisonnement multi-étapes, là où un LLM standard court-circuite vers une réponse superficielle.

Les chiffres du papier fondateur (Wei et al., 2022)

Les résultats de Wei et al. restent la référence. Sur quatre benchmarks publics :

GSM8K (mathématiques en langage naturel) : PaLM 540B passe de 17,9 % sans CoT à 58 % avec CoT. Avec la technique de self-consistency (vote majoritaire sur plusieurs chaînes de raisonnement), le chiffre monte à 74 %.
MGSM (raisonnement arithmétique multilingue) : les gains sont comparables sur les grands modèles mais quasi nuls sous 100 milliards de paramètres. Le CoT est une propriété émergente de l’échelle.
Sports understanding (commonsense) : PaLM 540B avec CoT dépasse un sportif amateur non assisté, 95 % contre 84 %.
BIG-Bench Hard : sur les 23 tâches les plus difficiles du benchmark, le CoT améliore les résultats sur 17 d’entre elles.

Les chercheurs sont mesurés dans leurs conclusions : le CoT est efficace sur les tâches complexes pour les très grands modèles. Sur les tâches courtes ou factuelles, l’avantage disparaît.

Trois prompts, trois résultats : ce que le tableau montre

Une comparaison sur une tâche marketing réaliste : qualifier un lead entrant à partir d’un email court, testée sur Claude Opus 4 et GPT-4o. La sortie évaluée sur trois critères : précision de la qualification, explicabilité et cohérence sur dix itérations.

Comparaison des approches de prompting sur une tâche de qualification de lead (Claude Opus 4, GPT-4o)
Type de prompt	Précision de qualification	Explicabilité / auditabilité	Cohérence sur 10 itérations
Prompt direct (« Qualifie ce lead »)	Moyenne, résultat binaire sans nuance	Faible, aucune trace de raisonnement	Variable, 6/10 résultats identiques
Zero-shot CoT (« Pense étape par étape »)	Bonne, critères explicités avant conclusion	Haute, les étapes sont visibles et corrigeables	Stable, 9/10 résultats cohérents
Few-shot CoT (2 exemples résolus)	Très bonne, format structuré et reproductible	Très haute, la structure des exemples est imitée	Très stable, 10/10 résultats cohérents

La colonne cohérence est souvent l’angle mort des guides sur le sujet. En marketing opérationnel, une technique qui produit des résultats variables à 40 % reste inutilisable en production, peu importe la qualité moyenne.

Quand le CoT devient contre-productif

Un rapport de la Wharton Generative AI Lab (juin 2025) documente un correctif important. L’étude porte sur 198 questions de niveau PhD (dataset GPQA Diamond), 25 essais par condition et par modèle. Sur les modèles de raisonnement natifs comme o3-mini ou o4-mini, l’ajout explicite de CoT apporte en moyenne 2,9 % à 3,1 % de gain et les requêtes prennent 20 à 80 % plus longtemps, soit 10 à 20 secondes supplémentaires par appel.

Sur Gemini Flash 2.5, le CoT explicite dégrade même les performances (-3,3 %). Ces modèles font du chain-of-thought nativement, dans leur process de raisonnement interne. Leur demander explicitement de « penser étape par étape » crée une redondance qui perturbe le flux.

En pratique, la technique CoT reste pertinente sur les modèles standards, GPT-4o, Claude Sonnet, Gemini Flash en mode standard mais devient superflue dès que vous basculez sur un reasoning model. Sur GPT-4o-mini, le gain est de 4,4 %, sans significativité statistique. Sur Sonnet 3.5, il monte à 11,7 %. Les écarts entre modèles sont plus importants que l’effet moyen de la technique.

Surtout, le token cost est un paramètre réel en production avec un volume d’appels élevé. Une augmentation de 35 à 600 % du temps de réponse selon les modèles testés, c’est un facteur d’arbitrage.

CoT appliqué au marketing : quatre cas d’usage workflow

Les guides « top 50 prompts marketing » donnent des exemples déconnectés de tout contexte d’exécution. Sur GPT-4o ou Claude, en contexte d’agent ou de Custom GPT, quatre applications produisent un avantage mesurable :

Analyse de verbatims clients. Un prompt direct sur 50 réponses d’enquête NPS produit une synthèse aplatie. Avec CoT, on demande au modèle d’identifier d’abord les thèmes récurrents, puis de pondérer par fréquence, puis de signaler les signaux faibles avant de conclure. La sortie est auditable et reproductible par l’équipe.

Rédaction de séquence email cold outreach. Le CoT force le modèle à travailler la persona cible et l’objection principale d’abord, puis la valeur différenciante, avant d’écrire le premier mot. Le résultat est moins générique qu’un prompt « écris un email de prospection pour SaaS B2B ».

Scoring de leads dans un agent n8n. Dans un pipeline RAG avec contexte CRM, le CoT dans le system prompt permet de tracer le raisonnement scoring, utile pour le débogage et l’audit des décisions automatiques. Sans CoT, la décision est une boîte noire.

Critique de copy publicitaire. En demandant au modèle d’évaluer séquentiellement la clarté, la promesse, l’urgence et l’appel à l’action avant de formuler une critique globale, on obtient un feedback structuré réutilisable comme template d’équipe. Une façon de standardiser ce que chaque membre ferait au feeling autrement.

La limite commune à ces cas : le CoT allonge la chaîne de traitement. Dans un workflow synchrone avec contrainte de latence, c’est un coût à mesurer. Dans un workflow asynchrone ou batch, c’est généralement absorbable.

Maîtriser le CoT, c’est surtout savoir quand l’activer.

Chain-of-thought prompting : la technique IA que tout marketeur devrait maîtriser

Ce qu’un prompt « pense étape par étape » change concrètement

Les chiffres du papier fondateur (Wei et al., 2022)

Trois prompts, trois résultats : ce que le tableau montre

Quand le CoT devient contre-productif

CoT appliqué au marketing : quatre cas d’usage workflow

Nicolas

Laisser un commentaire

OpenAI sanctionnée en Allemagne pour atteinte au droit d’auteur sur des paroles de chansons

Claude Code Auto Mode : le mode autonome qui change la donne pour les developpeurs

Comment l’IA révolutionne le développement web : coding, IDE intelligents et assistants inspirés

Chain-of-thought prompting : la technique IA que tout marketeur devrait maîtriser

Ce qu’un prompt « pense étape par étape » change concrètement

Les chiffres du papier fondateur (Wei et al., 2022)

Trois prompts, trois résultats : ce que le tableau montre

Quand le CoT devient contre-productif

CoT appliqué au marketing : quatre cas d’usage workflow

Nicolas

Laisser un commentaire

Les Alternatives