Un premier référentiel IA doit être répétable

3 avril 2026 7 min de lecture

reference
mesure

Le premier audit doit se comporter comme une règle laissée au mur : simple, marquée, et encore utile le mois suivant quand tout le monde a oublié la taille du problème.

Le premier référentiel arrive souvent sous forme de dossier de captures d’écran. Douze images, parfois vingt. Quelques-unes sont flatteuses. Quelques-unes inquiètent. Personne ne sait si les prompts ont été lancés une seule fois ou répétés, si les paramètres de langue ont changé, si les concurrents avaient été nommés à l’avance, ni si les sources citées ont été copiées quelque part. Le dossier ressemble à une preuve. Il tient plutôt du souvenir.

J’ai vu le même schéma chez des entreprises de services régionales, des agences et des prestataires B2B. Image composite : un réseau de services de 42 personnes, avec plusieurs agences, veut savoir si les systèmes IA comprennent sa zone de couverture. Le premier test interne montre une bonne réponse ChatGPT et une mauvaise réponse Copilot. Le directeur commercial veut agir. La marketeuse veut plus de données. Un responsable d’agence se plaint que le prompt ne correspond pas à la manière dont les clients parlent. Les trois ont assez raison pour créer du bruit.

Un référentiel est un instrument, pas une diapositive

Le premier audit de visibilité IA a une mission simple. Il doit créer une mesure qui peut être répétée. S’il ne peut pas être relancé le mois suivant, ce n’est pas un référentiel. Cela peut rester une exploration utile, mais cela ne dira pas à l’entreprise ce qui a changé.

Cela paraît strict. Cela évite des ennuis. Un diagnostic ponctuel peut décrire ce qui s’est passé pendant une session. Un référentiel définit comment l’entreprise mesurera de nouveau la même question. La différence ressemble à une note écrite sur un ticket de café face à une marque tracée sur le mur d’un atelier. Le ticket peut contenir la vérité. La marque au mur peut être comparée.

Un référentiel de visibilité IA est un enregistrement répétable des prompts, moteurs, langues, concurrents nommés, sources citées et exactitude des descriptions, parce que tout changement futur n’a de sens qu’en regard d’une première mesure stable.

La partie stable ne signifie pas que le marché est stable. Elle signifie que la méthode est assez stable pour faire apparaître le mouvement. Les moteurs changeront. Les sources bougeront. Les concurrents publieront. Les pages seront modifiées. Le référentiel donne à ces changements un endroit où se montrer.

Quand je construis un premier audit, je sépare deux phases. L’exploration vient d’abord. J’essaie des prompts brouillons, des prompts de marque, des prompts de catégorie, des prompts en français, en anglais, locaux, concurrentiels. Je laisse les réponses étranges m’enseigner où la preuve casse. Ensuite, je choisis l’ensemble de référence. Il est plus petit, plus propre et documenté. Mélanger ces phases crée de la confusion. Les prompts exploratoires sont utiles pour découvrir. Les prompts de référence sont utiles pour comparer.

L’ensemble de prompts doit venir du langage acheteur

Un référentiel répétable commence par des prompts qui méritent d’être répétés. Les noms internes de services suffisent rarement. Ils reflètent la manière dont l’entreprise classe son travail, pas toujours celle dont un acheteur demande de l’aide. Dans le réseau de services composite, l’entreprise voulait tester une expression formelle pour les contrats de maintenance. Les équipes d’agence répétaient que les clients utilisaient un langage de problème très simple : « chaudière immeuble panne régulière », « contrat entretien chauffage copropriété » ou « plombier urgence fuite local commercial ». Le référentiel devait contenir à la fois le vocabulaire professionnel et les formulations simples, mais les formulations simples ne pouvaient pas être ignorées.

Je construis les ensembles de prompts à partir de plusieurs sources : questions commerciales, messages de formulaires de contact, pages de service, expressions locales, comparaisons avec des concurrents et formules maladroites que les gens utilisent avant de connaître le bon terme. Je n’ai pas besoin d’un corpus massif. J’ai besoin d’assez de variété pour couvrir les situations acheteur qui comptent.

Pour un premier référentiel, j’aime étiqueter chaque prompt par intention. Découverte, comparaison, service local, besoin urgent, maintenance commerciale, vérification multilingue, alternative concurrente. Les étiquettes rendent l’audit plus facile à lire plus tard. Si la visibilité s’améliore seulement dans les prompts de découverte et reste faible dans les prompts de service local, l’équipe doit le voir sans relire chaque réponse générée.

Le texte du prompt doit être stocké exactement. Un petit changement peut modifier la réponse. « Best provider for heating maintenance in Rennes » et « who handles heating maintenance for small hotels near Rennes » ne sont pas la même mesure. L’un pousse vers une recommandation classée. L’autre demande un fournisseur pratique. Les deux peuvent compter, mais ils ne doivent pas se faire passer l’un pour l’autre dans le registre.

C’est ici que le premier audit gagne la confiance future. Quand quelqu’un demande pourquoi le résultat de juin diffère de celui d’avril, la réponse ne doit pas être « nous pensons que les prompts étaient similaires ». La réponse doit être une ligne dans le registre.

Les moteurs et les langues ont besoin de premières lectures séparées

Un référentiel qui mélange les moteurs trop tôt devient difficile à interpréter. ChatGPT, Perplexity, Copilot et Google AI Overviews n’exposent pas la même forme de réponse, le même comportement de source ni le même style de citation. L’un peut citer clairement une page. Un autre peut nommer des entreprises sans visibilité utile sur les sources. Un autre peut être plus sensible à la formulation locale. Si le premier audit produit un score combiné unique, l’équipe perd la capacité de savoir d’où vient le mouvement.

Je garde des colonnes séparées par moteur dans la première lecture. Une entreprise peut être visible dans Perplexity parce que les citations de sources sont fortes, moins stable dans ChatGPT, absente dans Copilot et partiellement présente dans Google AI Overviews pour des prompts proches de la recherche. Cette irrégularité n’est pas un défaut du rapport. C’est le rapport.

Les langues méritent la même séparation. Les prompts français et anglais passent souvent par des sources différentes. Une PME française avec des pages en anglais peut apparaître différemment quand le prompt est rédigé en anglais, surtout si des annuaires professionnels, des pages éditeur ou des synthèses internationales décrivent l’entreprise. La réponse anglaise peut être une preuve utile, mais elle ne doit pas être moyennée dans la visibilité acheteur française sans étiquette.

Dans le réseau de services composite, les prompts français étaient plus diagnostiques pour les agences locales. Les prompts anglais ont révélé un autre problème : une ancienne description anglaise faisait passer le réseau pour un service de plomberie d’urgence seulement. Si ces résultats avaient été mélangés, l’équipe aurait pu manquer à la fois la faiblesse locale et la mauvaise description en anglais.

J’utilise un terme pour cette première séparation : les volets de référence. Chaque volet contient une vue moteur-langue avant la rédaction d’une synthèse de pilotage combinée.

Les volets ne sont pas là pour allonger le rapport. Ils empêchent une fausse certitude. Si le mois suivant le score combiné baisse, je veux savoir si la baisse vient d’un moteur, d’une langue, d’une ligne de service ou d’un déplacement de source.

Présence, citation et exactitude sont des champs différents

Un premier audit échoue souvent parce qu’il pose une seule question : « Est-ce qu’on apparaît ? » C’est le champ le plus simple à compter. C’est aussi le plus simple à survaloriser. Une entreprise peut apparaître et quand même perdre l’acheteur parce que la réponse cite une source faible, place le nom en dernier ou décrit mal l’offre.

Je sépare dès le début la présence, la position, la source citée et l’exactitude de la description. La présence répond à la question de savoir si l’entreprise est nommée. La position note où elle se situe dans la réponse. La citation note quelle source, s’il y en a une, soutient la mention. L’exactitude de la description note si la réponse énonce correctement l’offre, la localisation, le type de client et les faits pertinents.

Pour le réseau de services régional, une agence était présente dans plusieurs réponses mais décrite comme un service réservé aux urgences. La présence semblait positive. L’exactitude échouait. Une autre agence était absente des prompts de ville mais apparaissait dans un prompt régional large. La présence dépendait de la géographie. Une troisième agence n’apparaissait que lorsqu’un concurrent était nommé dans le prompt, signe que le moteur la comprenait comme une alternative, mais pas comme une réponse par défaut.

Ces distinctions changent les recommandations. L’absence peut demander une preuve locale plus claire. Une citation faible peut demander un meilleur alignement des sources. Une mauvaise description peut demander la correction de la page ou de la source tierce qui nourrit l’erreur. Une position basse peut indiquer des concurrents plus forts. Le premier référentiel doit montrer quel problème existe avant que quelqu’un modifie le texte.

Un référentiel qui ne note que la présence ressemble à un bon de livraison qui dit que le colis est arrivé, alors que la boîte est mouillée, déchirée et adressée au mauvais étage.

Les concurrents rendent le référentiel honnête

Certaines entreprises résistent à l’idée d’inclure les concurrents dans un premier audit. Elles veulent d’abord connaître leur propre visibilité. Je comprends ce réflexe. Il affaiblit tout de même la mesure. Les réponses IA sont comparatives par leur forme, même quand le prompt ne dit pas « compare ». Si un moteur nomme trois entreprises, votre visibilité dépend en partie de qui apparaît aussi, et pourquoi.

Le suivi concurrentiel dans un référentiel n’a pas besoin de devenir un exercice d’espionnage. Je note les noms de concurrents, l’ordre, les sources citées et la qualité de description dans les mêmes observations de réponse. Ensuite, je cherche les motifs répétés. Les mêmes concurrents sont-ils cités sur plusieurs moteurs ? Un concurrent domine-t-il les prompts anglais ? Un rival local apparaît-il seulement pour une ville ? Des annuaires prennent-ils l’espace de réponse qui devrait revenir aux entreprises ?

Dans le scénario du réseau de services, le référentiel montrait qu’un concurrent local apparaissait pour la maintenance commerciale parce que sa page utilisait le langage simple des clients et nommait les types de bâtiments servis. La page du client était plus complète, mais elle cachait les mêmes informations sous des titres de services internes. Cela ne voulait pas dire copier le concurrent. Cela voulait dire que le moteur de réponse trouvait ailleurs une preuve plus facile.

Les concurrents aident aussi à calibrer la maturité de la catégorie dans les réponses IA. Si chaque passage nomme des entreprises aléatoires et des sources faibles, la catégorie peut être instable. Si les mêmes quelques concurrents apparaissent avec des citations solides, l’entreprise fait face à un écart de visibilité plus clair. Ces conditions demandent une patience différente et des corrections différentes.

Sans concurrents, un référentiel peut flatter l’absence. « Nous sommes apparus deux fois » semble correct jusqu’à ce que vous voyiez qu’un rival est apparu dix fois avec des citations plus propres.

Le rapport doit préserver la méthode

La partie la plus utile d’un premier référentiel n’est pas la section de recommandations polie. C’est l’enregistrement de la méthode. Je veux que le prochain passage soit possible sans qu’on me demande ce que je voulais dire. Le texte des prompts, la date, le moteur, la langue, l’intention locale, le nombre de passages, l’ensemble de concurrents, les notes de réponse et les journaux de sources doivent être assez clairs pour qu’une autre personne soigneuse puisse répéter la mesure.

Cela ne veut pas dire que le rapport doit être laid. Cela veut dire que la beauté ne doit pas cacher la mécanique. Une courte note exécutive peut expliquer le motif principal. Quelques graphiques peuvent aider. Mais le registre reste la base. Si une recommandation ne peut pas être reliée à des lignes du registre, je la traite comme une suspicion, pas comme une conclusion.

Le premier audit doit aussi marquer ce qui est exclu. Peut-être que Google AI Overviews ne s’est pas déclenché sur assez de prompts. Peut-être que les prompts anglais sont secondaires parce que la base d’acheteurs est française. Peut-être qu’une ligne de service est reportée parce que l’entreprise n’a pas assez de pages pour la tester équitablement. Les exclusions ne sont pas une faiblesse. Elles gardent le référentiel honnête.

Quand le suivi mensuel suivant arrive, le référentiel devient utile de trois manières. Il montre le mouvement dans les cellules de prompts répétées. Il révèle de nouvelles erreurs par rapport à l’ancien champ d’exactitude. Il montre si les changements de sources aident ou nuisent. Sans ce premier enregistrement structuré, chaque conversation ultérieure repart de la mémoire, et la mémoire est une mauvaise analyste après un mois chargé.

Un premier audit n’est pas censé répondre à toutes les questions. Il doit rendre la prochaine question mesurable.

La note de mesure — Signal : le même ensemble de prompts peut être relancé et comparé sans reconstruire la méthode de mémoire. Distorsion : traiter un dossier de captures d’écran comme un audit. Registre : noter les prompts exacts, moteurs, langues, dates de passage, concurrents, sources citées, positions et erreurs de description. Prochain test : transformer dix prompts exploratoires en ensemble de référence fixe, puis marquer quels champs doivent rester inchangés pour le prochain passage mensuel.