Ce que noindex fait vraiment, au-delà de la définition
La balise noindex est une instruction donnée aux moteurs de recherche pour qu'une page ne figure pas dans leur index, donc jamais dans les résultats. Cette ligne de dictionnaire est exacte et inutile en pratique. Ce qui compte en 2026, c'est que noindex est devenu un outil de sculpture : sur un site qui dépasse quelques milliers d'URL, Google ne range plus tout. Il indexe ce qu'il juge utile et laisse le reste en file d'attente. Poser un noindex, c'est dire explicitement « cette page n'a pas vocation à ranker, ne la garde pas », pour concentrer le signal sur les URL qui, elles, doivent peser.
La vidéo ci-dessous pose proprement les bases de la meta robots avant qu'on entre dans la mécanique.
La confusion la plus tenace, qu'on retrouve dans la plupart des audits, c'est l'assimilation entre noindex et blocage. Une page en noindex est toujours explorée par le robot : il faut bien qu'il lise la directive pour l'appliquer. À l'inverse, une page bloquée dans le fichier qui régit l'exploration n'est pas lue du tout, donc Google n'y verra jamais votre noindex. Les deux mécanismes vivent à des étages différents de la pile : l'un parle d'exploration, l'autre d'indexation. Les empiler dans le mauvais ordre est la première cause de pages fantômes qui refusent de disparaître.
Comment la directive fonctionne en 2026
Concrètement, le moteur récupère la page, lit l'instruction noindex dans la balise meta robots de l'en-tête HTML ou dans l'en-tête HTTP X-Robots-Tag, puis retire l'URL de l'index au prochain traitement. Ce n'est pas instantané : il faut que la page soit re-crawlée après la pose de la directive. Sur une page profonde et peu visitée par le robot, la désindexation peut prendre des semaines. C'est pour ça que bloquer l'URL dans robots.txt juste après avoir posé un noindex est une erreur classique : vous coupez l'accès avant que Google n'ait relu la directive, et la page reste figée dans l'index, parfois avec un extrait du type « aucune information disponible ».
Un point que les pages qui rankent sur ce sujet traitent mal : la persistance. Google a indiqué qu'un noindex,follow maintenu très longtemps finit par être traité comme un noindex,nofollow. Le moteur considère qu'une page qu'il ne veut plus indexer ne mérite plus qu'il suive ses liens sortants sur la durée. Pour une page de tri ou de filtre, ça n'a aucune conséquence. Pour une page qui sert de relais de maillage vers du contenu stratégique, c'est un robinet qui se ferme sans bruit. La règle opérationnelle : noindex est fait pour sortir une page définitivement, pas pour la mettre en pause.
Côté robots.txt, rappelons le fait qui tranche le débat : Google a retiré le support de la directive noindex dans robots.txt le 1er septembre 2019 (Google Search Central). Ceux qui écrivent encore Noindex: dans leur robots.txt ne font rien du tout, le moteur ignore la ligne. Les seuls canaux qui font autorité aujourd'hui sont la meta robots pour le HTML et l'en-tête X-Robots-Tag pour tout le reste, PDF, images, fichiers générés.
Implémenter noindex sans casser le crawl
Trois canaux, trois usages. La balise meta robots, posée dans la section head du HTML, couvre l'immense majorité des cas pour des pages web classiques. L'en-tête HTTP X-Robots-Tag est la bonne réponse quand la ressource n'est pas du HTML, un PDF de catalogue, une image, un export : vous ne pouvez pas y insérer de balise, l'en-tête au niveau serveur prend le relais et accepte les mêmes valeurs, noindex, nofollow, noarchive. Le troisième « canal », robots.txt, ne gère pas l'indexation, seulement l'exploration : ne l'utilisez jamais pour désindexer.
Sur WordPress, qui motorise une large part du web, la directive se pilote sans toucher au code via les réglages d'un plugin SEO ou la case « Décourager les moteurs de recherche » des réglages de lecture, à manier avec prudence car elle s'applique à tout le site. La démonstration suivante montre la manipulation concrète sur une page isolée.
La règle d'or de l'implémentation tient en une phrase : laissez la page explorable le temps que la directive soit lue. Concrètement, vous posez le noindex, vous attendez la désindexation effective vérifiée dans Search Console, et seulement ensuite, si la volumétrie de crawl gaspillé le justifie, vous bloquez l'URL dans robots.txt. Inverser ces deux gestes est la faute la plus fréquente qu'on corrige en audit technique.
Où noindex compte dans une opération de netlinking
Pour un consultant netlinking, noindex est un outil de plomberie du PageRank interne. Toute page indexable absorbe une part du jus de lien qui circule dans le site. Quand un site empile des centaines de pages de filtres, de résultats de recherche interne ou d'archives datées, ce sont autant de fuites qui diluent la force transmise aux pages qui vendent ou qui rankent. Désindexer ces pages en noindex,follow nettoie l'index tout en laissant le PageRank traverser via les liens internes restants.
La nuance que beaucoup ratent : noindex ne récupère pas de budget d'exploration. Le robot continue de visiter la page pour relire la directive. Si votre vrai problème est le gaspillage de crawl sur des millions d'URL à facettes, c'est robots.txt et l'architecture des liens qu'il faut revoir, pas seulement le noindex. Les deux leviers se complètent, ils ne se substituent pas. Cette distinction sépare le SEO qui a lu une fiche outil de celui qui a déjà géré l'indexation d'un gros catalogue.
Côté liens externes, la logique vaut aussi quand vous achetez un placement : un article sponsorisé qui pointe vers vous n'a de valeur que s'il est indexé. Avant de valider un emplacement, on vérifie systématiquement que la page n'est pas en noindex, un oubli ou une manœuvre qui annule la transmission du signal. C'est précisément pour éviter ces angles morts que nous opérons Stringer en propre, avec des médias dont on contrôle l'état d'indexation page par page. Quand vous voulez calibrer une campagne de liens sur la durée, l'indexabilité de chaque support fait partie des contrôles non négociables, au même titre que le catalogue de médias consultable sans inscription qui rend cet état vérifiable à l'avance.
Les erreurs qu'on voit en audit
La première erreur, déjà citée, c'est le couple noindex plus robots.txt posé dans le mauvais ordre : la page reste indexée parce que Google ne peut plus lire la directive. La deuxième, c'est le conflit avec la balise canonical. Mettre un noindex sur une page qui se canonicalise vers une autre envoie deux ordres contradictoires : « ne m'indexe pas » et « considère-moi comme une variante de cette autre URL ». Google choisit lui-même quel signal suivre, et le résultat est imprévisible. Soit vous désindexez sans canonical, soit vous canonicalisez sans noindex, jamais les deux ensemble sur la même page.
Le troisième cas, le plus courant dans Search Console, c'est le rapport « Exclue par la balise noindex ». Il faut le lire à froid : la majorité du temps, c'est l'effet voulu, vos pages de tag ou de pagination font exactement leur travail. Le danger, c'est la poignée d'URL stratégiques qui s'y retrouvent par accident, un template qui a propagé un noindex global, une migration qui a laissé le réglage de préproduction en place. La vidéo suivante déroule la résolution pas à pas de cette alerte.
La quatrième erreur est plus insidieuse : utiliser noindex comme rustine sur du contenu pauvre ou généré par IA en masse, en espérant « cacher » le problème. Désindexer ne soigne pas la qualité, ça l'enterre. Si une section entière de votre site mérite un noindex de masse, la vraie question n'est pas technique, elle est éditoriale : pourquoi ces pages existent-elles. En 2026, avec les évaluations de qualité à l'échelle du site, accumuler des milliers de pages noindex pour masquer du thin content reste un signal de fond négatif, pas une solution.
À retenir côté opérationnel
noindex est une directive simple à écrire et facile à mal câbler. Le réflexe à garder : la page doit rester explorable le temps que la directive soit lue, le robots.txt vient après et seulement si nécessaire. Pour la pagination et les facettes, raisonnez en noindex,follow tant que le maillage doit continuer de passer, en gardant en tête que la directive ne rendra pas de budget de crawl. Et traitez chaque conflit avec la canonical comme une faute à corriger en priorité, pas comme un détail. Le reste, c'est de la discipline de mesure : inspection d'URL, lecture des logs, et vérification que ce que Search Console exclut correspond bien à votre intention.