LLM smells : les patterns qui trahissent un contenu IA et comment les éliminer de votre marketing

Page Notion sur la stratégie de contenu
Exemple de page dédiée à la stratégie de contenu dans Notion. Un passage clé est mis en évidence pour souligner l’importance de l’adaptation.

Vous ouvrez le draft de votre dernier article de blog, rédigé en dix minutes avec Claude ou GPT-5. Le texte est propre, bien structuré, sans faute. Et pourtant quelque chose cloche. « Par ailleurs », « il convient de noter », des sections qui font toutes exactement 180 mots, une conclusion qui résume les trois points déjà développés. Votre équipe utilise ChatGPT au feeling, sans consignes de style et les sorties se ressemblent toutes. C’est ça, un LLM smell : une signature statistique que les modèles de langage reproduisent mécaniquement faute d’instruction contraire.

En 2025, 50% des consommateurs identifient correctement un contenu généré par IA et 52% réduisent leur engagement dès qu’ils le détectent, selon les données Bynder. La structure, le rythme et, surtout, la densité sémantique que les LLMs optimisent par défaut vers une moyenne statistique sont au moins aussi trahissants que le vocabulaire.

Ce que les détecteurs mesurent vraiment

GPTZero, Originality.ai et Turnitin ne lisent pas votre texte comme un éditeur humain. Ils mesurent deux métriques : la perplexité (à quel point chaque choix de mot est prévisible en contexte) et la burstiness (la variance de longueur entre phrases). Un LLM sélectionne statistiquement le token le plus probable ; le texte résultant a une perplexité faible et une burstiness quasi nulle, toutes les phrases mesurant entre 15 et 22 mots, régulièrement.

Un humain écrit autrement. Il pose une phrase de 5 mots. Puis une longue, avec des incises, des virgules, une reformulation en chemin qui montre qu’il pense en écrivant et non qu’il exécute un plan préfabriqué. C’est cette variance rythmique que les détecteurs traquent en priorité.

Nuance importante : aucun outil actuel ne rattrape un texte passé par un humanizer sérieux. Mais une étude Wikipedia (2025) montre que les heavy users de LLMs atteignent 90% de précision dans la détection manuelle. Les journalistes tech et les CMOs concurrents sont aussi vos lecteurs les plus attentifs. Eux voient les patterns que GPTZero rate.

Les patterns structurels, couche par couche

Au niveau lexical, les termes comme « naviguer », « explorer », « façonner », « essentiel », « paysage » et « écosystème » reviennent avec une fréquence anormale dans les sorties LLM parce qu’ils apparaissaient massivement dans les corpus d’entraînement sous forme journalistique. La page Wikipedia Signs of AI writing, née du projet AI Cleanup en 2023 sur près de 15 000 mots de recensement, catalogue aussi l’abus du tiret cadratin là où un humain placerait une virgule ou un point et les constructions en -ing en fin de phrase qui « reflètent la pertinence continue de… ».

Le signal rythmique est plus profond. Un métronome intra-paragraphe, toutes les phrases entre 15 et 20 mots, est la signature LLM majeure selon les chercheurs d’arxiv. Même les triplets propres (« rapide, simple, efficace ») sont un footprint : les humains déséquilibrent naturellement leurs énumérations.

Au niveau structurel : sections de longueur identique, topic sentence systématique en ouverture de chaque H2, conclusion-bilan qui récapitule les points déjà dits, FAQ de 5 questions avec des réponses de 60 mots exactement. En pratique, quand vous lisez un article où toutes les sections font 180 mots, le signal est aussi clair qu’un watermark.

L’antithèse rhétorique : le pattern le plus traître

Parmi les footprints lexicaux, un mérite une mention séparée. « Le problème n’est pas technique, il est organisationnel. » « Vous pensez que c’est une question de budget. C’est en réalité une question de processus. » Cette construction en opposition X/Y est sur-représentée dans les outputs LLM parce que les modèles ont appris qu’elle sonne analytique et ils la dégainent chaque fois qu’ils veulent donner l’impression d’apporter une nuance.

Reformuler en causalité directe donne quelque chose de bien plus solide : « La cause est organisationnelle : le prestataire DNS n’a pas été contacté depuis trois ans. » Même information, zéro footprint.

« C’est facile à corriger avec un bon prompt. » Même avec un system prompt détaillé, les modèles frontier reproduisent ce pattern sous pression de longueur. Le pattern est structurel : il vient de la mécanique du token sampling.

Ce que ça coûte concrètement

38% des consommateurs ont un sentiment positif envers l’IA. Les annonceurs, eux, sont à 77%, d’après NielsenIQ. Cet écart de 39 points révèle la chambre d’écho dans laquelle travaillent les équipes marketing qui produisent du contenu IA sans filet. Le contenu non supervisé génère en moyenne 40% de signaux E-E-A-T en moins que le contenu humain, selon SmythOS (2025).

62% des lecteurs déclarent faire moins confiance à une marque dont ils identifient le contenu comme IA-généré, selon une enquête DesignRush (2024). Pour une équipe qui industrialise la production avec des agents autonomes et un pipeline de 20 articles par semaine, cette dette de crédibilité s’accumule silencieusement, article par article, jusqu’au moment où un client signale qu’il ne « lit plus vraiment » vos newsletters.

Le paradoxe de transparence existe bien. Les annonces explicites « contenu assisté par IA » augmentent la confiance de 73% selon Yahoo et Publicis Media. Mais il s’applique à la déclaration volontaire, pas aux textes qu’on espère faire passer pour humains.

Il y a un autre angle rarement mesuré : la concentration d’audience. Les 38% de lecteurs positifs envers l’IA ne sont pas les mêmes que ceux qui détectent les LLM smells à 90% de précision. Les heavy users de LLMs, exactement la cible d’un site comme Hubfi, sont aussi les meilleurs détecteurs humains. C’est leur pipeline de lecture quotidien qui aiguise ce radar. Un article qui passe GPTZero peut encore perdre la confiance d’un CMO qui utilise Claude tous les jours.

Le correctif : imposer de la variance

Supprimer « écosystème » et « naviguer » de votre blacklist ne suffit pas. GPTZero continuera à mesurer la burstiness de vos paragraphes. Ce qui fonctionne :

  • Imposer dans votre system prompt une variance brutale explicite : « certaines phrases doivent faire moins de 8 mots, d’autres dépasser 35 mots, réparties irrégulièrement dans l’article, pas une courte et une longue par section à position fixe »
  • Demander que 30 à 50% des H2 s’ouvrent par un exemple, une scène ou un fragment plutôt que par la thèse du paragraphe
  • Interdire les conclusions-bilans en fin de section : « termine chaque section sur un fait ou une observation, pas sur une synthèse »
  • Briser la symétrie structurelle : « une section doit faire moins de 100 mots, une autre dépasser 280 mots »

Le modèle respecte ces contraintes si elles sont explicites dans le context window. Sans elles, il optimise vers sa moyenne statistique à chaque token généré.

Sur les outils de détection : Originality.ai, GPTZero, Turnitin et Grammarly peuvent donner cinq réponses différentes sur le même texte. Ils mesurent des proxies statistiques. La réalité du texte leur échappe souvent. Le vrai test reste la lecture d’un rédacteur senior ou d’un CMO qui utilise lui-même les LLMs quotidiennement.

Appliquer ça en workflow réel

73% des équipes marketing utilisent déjà un mode hybride (un humain retravaille le draft IA), selon SmythOS (2025). Deux choses ressortent : le LLM doit recevoir des contraintes explicites de variance avant génération, et un regard humain en aval repère ce que les métriques automatiques ratent.

Ouvrez le dernier article publié par votre équipe. Comptez les phrases. Si elles mesurent toutes entre 14 et 22 mots, le correctif tient en une seule ligne dans votre system prompt.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *