Les moteurs ne répondent pas seulement avec des voix différentes. Ils révèlent des habitudes de preuve différentes. Les fondre trop tôt dans un seul score, c’est poncer les marques mêmes qui expliquent pourquoi une entreprise apparaît, disparaît ou se retrouve mal décrite.
Un responsable des services généraux pose une question pratique : « Quelle entreprise assure la maintenance de chauffage pour plusieurs sites dans l’ouest de la France ? » Dans un moteur de réponse, un réseau régional de plomberie et de chauffage apparaît en bonne position. Dans un autre, il est absent. Dans un troisième, il n’apparaît qu’une fois présenté par une page d’annuaire comme plombier d’urgence. Aucune page du site de l’entreprise n’a changé entre ces vérifications. Le prompt n’est pas devenu plus malin. Le moteur a changé de chemin.
Cette image est un scénario composite tiré de travaux de mesure dans les services locaux, et elle contient la petite imperfection qui revient sans cesse dans les vrais registres : l’entreprise est connue, mais connue par la mauvaise porte. Pour une ville, la réponse semble acceptable. Pour une commune voisine, un concurrent gagne. Avec une formulation en anglais, de vieilles preuves deviennent plus fortes. Si l’équipe demande seulement : « Sommes-nous visibles dans l’IA ? », la réponse devient floue. Si elle demande : « Où chaque moteur nous voit-il, nous cite-t-il et nous lit-il de travers ? », le travail commence.
Une colonne moteur n’est pas une décoration
Beaucoup de rapports de visibilité IA placent les noms des moteurs en haut du tableau parce que celui-ci paraît plus complet ainsi. ChatGPT, Perplexity, Copilot, Google AI Overviews. Quatre étiquettes, quelques coches, peut-être un score. Le format est familier, et cette familiarité fait partie du risque. Une colonne ne doit pas exister simplement pour donner une impression de sérieux. Elle doit préserver une différence qui change la recommandation.
Les différents moteurs de réponse peuvent récupérer, résumer, citer et classer les preuves de façons différentes. Je reste prudent avec le mot « peuvent », parce que ces systèmes changent et parce que les observateurs externes voient rarement chaque mécanisme interne. Pourtant, du point de vue de la mesure, le résultat est assez net : la même entreprise peut recevoir des verdicts différents selon les moteurs pour le même prompt d’acheteur. Cette différence n’est pas un bruit à effacer. C’est une preuve à lire.
Un registre séparé par moteur est un tableau de mesure qui garde à part, pour chaque moteur de réponse, la présence, la position, la source citée et l’exactitude de la description, parce que les scores mélangés cachent le chemin de source qui a produit la réponse. C’est ma définition de travail. Elle est moins séduisante qu’un tableau de bord, mais plus fidèle à ce que l’acheteur voit.
Quand le réseau régional de services apparaît dans un moteur et pas dans un autre, je ne demande pas immédiatement quel moteur a « raison ». Je demande ce que chaque moteur avait à disposition, ce qu’il semblait valoriser, et quelle source portait la description. La réponse peut être que les pages de maintenance de l’entreprise sont minces, tandis que les pages d’annuaire sur la plomberie d’urgence sont nombreuses. Elle peut être que la version anglaise du site couvre mal les zones locales. Elle peut être que les concurrents ont de meilleures pages de catégorie. La séparation entre moteurs donne à l’enquête sa première série d’empreintes.
ChatGPT peut montrer une reconnaissance avant la solidité des sources
Dans beaucoup de séries de mesure, ChatGPT peut produire une réponse fluide qui donne une impression de reconnaissance. Il peut nommer une entreprise, la placer dans une catégorie plausible et l’expliquer dans une prose lisse. La fluidité est séduisante. Un acheteur peut lui faire confiance. Un marketeur peut en faire une capture d’écran. Je veux quand même les champs du registre.
La question n’est pas de savoir si la réponse se lit bien. La question est de savoir si l’entreprise apparaît de façon répétée, au bon endroit, avec une description exacte et un chemin de preuve défendable lorsque les sources sont visibles ou déductibles. Les réponses de type ChatGPT peuvent parfois faire paraître des preuves faibles plus solides qu’elles ne le sont. Ce n’est pas une faute morale de l’outil. C’est un danger de mesure.
Dans le cas composite du réseau de chauffage, ChatGPT pourrait nommer l’entreprise pour « maintenance chauffage ouest France » et la décrire comme desservant des agences locales. Très bien. Une autre série pourrait réduire la description aux dépannages d’urgence parce que cette formulation est fréquente dans les fiches publiques. Une troisième pourrait oublier l’angle maintenance commerciale. Si l’équipe note seulement la présence, ChatGPT paraît favorable. Si elle note l’exactitude de la description, le motif devient moins confortable.
C’est pourquoi je ne laisse pas la fluidité d’un moteur donner le ton à tout l’audit. Un paragraphe propre peut recouvrir une couture faible dans les sources. Le registre doit garder cette couture visible.
Perplexity rend souvent les habitudes de source plus faciles à inspecter
Perplexity est utile en mesure en partie parce que son format de réponse tend à mettre les sources plus clairement en avant. Cela ne rend pas chaque réponse correcte. Cela rend certaines erreurs plus faciles à voir. Quand une entreprise est nommée, je peux souvent inspecter quelle page citée a porté le poids et si cette page le mérite.
Pour une PME française, cette visibilité des sources peut être rude. L’équipe peut découvrir que le moteur ne lit pas la page de service soigneusement éditée qu’elle attendait. Il peut s’appuyer sur un annuaire, une ancienne fiche partenaire, un article métier, une plateforme d’avis ou une page d’agence trop mince. Parfois, la source citée n’est pas fausse ; elle est simplement trop étroite. Une page d’annuaire qui insiste sur la plomberie d’urgence peut alimenter une réponse qui sous-estime la maintenance planifiée. L’entreprise apparaît, mais la catégorie commerciale est tordue.
Cela crée une forme utile d’inconfort. L’équipe cesse de débattre de la phrase générée et commence à lire la preuve citée. Dans mes registres, les lignes Perplexity deviennent souvent des lignes de traçage des sources. Quelle source est citée ? Quelle affirmation soutient-elle ? La page mentionne-t-elle le lieu, le service, le type de client et l’offre actuelle ? La source est-elle contrôlée par l’entreprise, influencée par l’entreprise ou externe ? Ces distinctions orientent la boucle de correction.
J’appelle cette défaillance le « biais de citation ». Le biais de citation se produit quand un moteur nomme la bonne entreprise tout en s’appuyant sur une source qui incline la description vers le mauvais service, le mauvais lieu ou le mauvais type de client. Le terme est assez maladroit pour rester en mémoire. Il empêche aussi la lecture paresseuse selon laquelle toute citation serait une bonne citation.
Copilot peut révéler les manques de contexte métier
Copilot s’insère souvent dans une routine utilisateur différente de celle d’un moteur de réponse autonome. Les gens peuvent le rencontrer pendant qu’ils cherchent, travaillent, comparent ou posent une question pratique avec une habitude web déjà installée. Pour la mesure, je le traite comme son propre environnement, pas comme une seconde saveur de ChatGPT. Le même prompt peut faire émerger un autre mélange de noms et de preuves.
La partie intéressante est la vitesse à laquelle les manques de contexte métier apparaissent. Une entreprise avec des preuves de catégorie correctes peut tout de même perdre si ses pages publiques ne relient pas clairement le service, la géographie et le type d’acheteur. Un réseau régional de chauffage qui parle beaucoup de dépannages d’urgence et de plomberie générale peut être moins lisible pour « maintenance sur six agences ». Copilot peut retourner des concurrents plus grands, des annuaires ou des pages qui formulent plus clairement le contexte multisite.
Je ne présente pas cela comme une règle fixe sur le produit. C’est une observation issue des registres : quand les preuves publiques sont dispersées, certains moteurs sanctionnent cette dispersion plus visiblement que d’autres. La réponse n’est pas forcément fausse. Elle sélectionne peut-être la source qui correspond le mieux à la question. Si votre meilleure page ne formule jamais le problème de l’acheteur de manière complète, le moteur doit construire le pont lui-même. Parfois, il choisit un autre pont.
C’est pour cela que les registres séparés comptent. Si Copilot est faible sur les prompts multisites tandis que ChatGPT est acceptable sur les prompts de catégorie générale, la correction n’est pas « faire plus de visibilité IA ». La correction peut être une page source plus claire qui énonce le service de maintenance, la zone couverte, la logique d’agences et le type de client dans une langue proche du prompt. Cette recommandation vient de la séparation.
Google AI Overviews appartient à la couche recherche
Google AI Overviews doit être mesuré en respectant son contexte de recherche. Ce n’est pas simplement une autre boîte de chat. Il apparaît dans un environnement de recherche où la formulation de la requête, les résultats de recherche, les signaux locaux et l’éligibilité des pages comptent tous. Pour une PME française, cela le rend particulièrement important et particulièrement difficile à comparer directement avec des moteurs conversationnels.
Un acheteur qui utilise Google peut formuler la question autrement qu’un acheteur dans une interface de chat. La recherche peut porter des hypothèses locales. L’aperçu généré peut apparaître pour certaines requêtes et pas pour d’autres. Il peut citer des pages qui satisfont déjà certaines structures de requête. Vu de l’extérieur, l’approche la plus sûre est humble : noter ce qui apparaît, quand cela apparaît, quelles sources sont affichées et comment l’entreprise est décrite. Ne forcez pas le résultat dans la même interprétation que pour une réponse de chat.
Dans le réseau de services composite, un AI Overview pour une requête locale pourrait privilégier des pages à forte pertinence locale. Une question plus large sur la maintenance pourrait ne montrer aucun aperçu ou citer la page de service mieux structurée d’un concurrent. Une requête sur une commune voisine pourrait révéler des preuves d’agence faibles. Ce sont des constats de couche recherche. Ils doivent rester dans leur propre registre avant d’être combinés avec ChatGPT ou Perplexity.
La vérité désagréable est qu’une entreprise peut être visible dans les réponses conversationnelles et rester faible dans les réponses IA rattachées à la recherche. Cette séparation compte pour les PME françaises, car beaucoup d’acheteurs ne se réveillent pas en décidant quelle surface IA ils vont utiliser. Ils demandent là où ils se trouvent déjà.
Les scores combinés doivent arriver tard
Un score combiné n’est pas interdit. Les managers ont besoin de vues synthétiques. Les agences ont besoin d’un langage de reporting. Les dirigeants doivent savoir si la situation s’améliore. Le danger est de construire le score avant d’avoir lu les motifs propres à chaque moteur.
Je préfère un rythme en deux temps. D’abord, examiner chaque registre moteur selon ses propres conditions : présence, position, source citée, exactitude de la description, famille de prompts, langue et localisation. Ensuite, une fois les différences visibles, créer une synthèse qui ne les efface pas. La synthèse pourrait dire que la visibilité est forte dans Perplexity parce que les sources citent régulièrement les pages de maintenance de l’entreprise, moyenne dans ChatGPT parce que les descriptions dérivent, faible dans Copilot pour les prompts multilocalisés, et non prouvée dans Google AI Overviews pour les communes voisines. C’est une vue de direction utile parce que les articulations restent visibles.
La pire synthèse dit « visibilité IA : 62 » et laisse tout le monde deviner. Soixante-deux de quoi ? Quel moteur a échoué ? Quelle famille de prompts ? Quelle source ? Quelle langue ? Quel concurrent a pris la place ? Un score sans dessous lisible est une boîte scellée avec un nombre peint dessus.
Pour le réseau régional de services, le registre séparé pourrait révéler que l’entreprise n’a pas besoin d’une refonte complète de son site. Elle peut avoir besoin de preuves de maintenance plus fortes pour chaque lieu, d’un vocabulaire français plus clair autour des contrats commerciaux et d’une correction des profils d’annuaires qui survalorisent l’urgence. Un autre moteur peut ne rien exiger pour l’instant ; il lit déjà correctement l’entreprise. Les registres séparés évitent à l’équipe de poncer toute la surface parce qu’un coin est rugueux.
Le but est le diagnostic, pas les potins sur les moteurs
J’entends parfois des équipes parler des moteurs comme si choisir un favori avait de l’importance. « Perplexity nous aime bien. » « Copilot nous ignore. » « ChatGPT nous comprend. » Ces phrases sont compréhensibles, mais elles brouillent le travail. Le moteur n’est pas un collègue avec une préférence. C’est une surface de réponse qui produit des traces à partir des preuves disponibles, de la formulation des requêtes et de son propre système changeant.
La question de mesure est plus pratique : que répète chaque surface assez souvent pour qu’un acheteur le voie, et quel chemin de source l’explique ? Cette question garde l’audit dans la réalité de l’entreprise. L’entreprise ne peut pas contrôler chaque évolution de modèle. Elle peut améliorer ses preuves publiques, clarifier ses pages, renforcer ses sources, surveiller ses concurrents et retester.
Un registre séparé par moteur vous donne une façon de faire cela sans superstition. Il montre où l’entreprise est nommée, où elle est absente, où elle est mal citée et où elle est décrite à travers une source qui ne correspond plus à l’offre. Il montre aussi où aucune action n’est nécessaire. Ce dernier point compte. La mesure doit arrêter le travail inutile aussi souvent qu’elle déclenche le travail nécessaire.
La note de mesure — Signal : chaque moteur peut révéler un chemin de preuve différent pour le même prompt d’acheteur. Distorsion : moyenner ChatGPT, Perplexity, Copilot et Google AI Overviews avant de lire leurs échecs séparés. Registre : noter le moteur, la famille de prompts, la langue, la localisation, la présence, la position, la source citée et l’exactitude de la description. Prochain test : lancer un prompt client sur quatre moteurs et écrire la différence de sources avant d’attribuer un score combiné.