noindex : la directive d'indexation qui sculpte votre crawl

À retenir

noindex retire une page de l'index mais ne bloque pas l'exploration : si robots.txt interdit le crawl, Google ne voit jamais la directive et la page reste indexée.
Google a supprimé le support de noindex dans robots.txt le 1er septembre 2019 (Google Search Central) : seuls la meta robots et l'en-tête X-Robots-Tag font autorité.
Un noindex laissé en place sur le long terme finit par être traité comme un nofollow sur les liens de la page : Google cesse de suivre ce qui en sort.
noindex et balise canonical sont des signaux contradictoires : ne jamais canonicaliser vers une page que vous désindexez, vous brouillez les deux instructions.
Pour la pagination et la navigation à facettes, noindex,follow préserve le passage du PageRank tout en nettoyant l'index, mais il ne récupère pas de budget d'exploration.
À grande échelle, vérifiez l'état d'indexation par log et via l'inspection d'URL, pas à l'œil : « Exclue par la balise noindex » dans Search Console est souvent un effet voulu, parfois un accident.

3 questions pour tester vos connaissances

Lisez d'abord, le quiz vous attend en bas de page.

Ce que noindex fait vraiment, au-delà de la définition

La balise noindex est une instruction donnée aux moteurs de recherche pour qu'une page ne figure pas dans leur index, donc jamais dans les résultats. Cette ligne de dictionnaire est exacte et inutile en pratique. Ce qui compte en 2026, c'est que noindex est devenu un outil de sculpture : sur un site qui dépasse quelques milliers d'URL, Google ne range plus tout. Il indexe ce qu'il juge utile et laisse le reste en file d'attente. Poser un noindex, c'est dire explicitement « cette page n'a pas vocation à ranker, ne la garde pas », pour concentrer le signal sur les URL qui, elles, doivent peser.

La vidéo ci-dessous pose proprement les bases de la meta robots avant qu'on entre dans la mécanique.

La confusion la plus tenace, qu'on retrouve dans la plupart des audits, c'est l'assimilation entre noindex et blocage. Une page en noindex est toujours explorée par le robot : il faut bien qu'il lise la directive pour l'appliquer. À l'inverse, une page bloquée dans le fichier qui régit l'exploration n'est pas lue du tout, donc Google n'y verra jamais votre noindex. Les deux mécanismes vivent à des étages différents de la pile : l'un parle d'exploration, l'autre d'indexation. Les empiler dans le mauvais ordre est la première cause de pages fantômes qui refusent de disparaître.

Comment la directive fonctionne en 2026

Concrètement, le moteur récupère la page, lit l'instruction noindex dans la balise meta robots de l'en-tête HTML ou dans l'en-tête HTTP X-Robots-Tag, puis retire l'URL de l'index au prochain traitement. Ce n'est pas instantané : il faut que la page soit re-crawlée après la pose de la directive. Sur une page profonde et peu visitée par le robot, la désindexation peut prendre des semaines. C'est pour ça que bloquer l'URL dans robots.txt juste après avoir posé un noindex est une erreur classique : vous coupez l'accès avant que Google n'ait relu la directive, et la page reste figée dans l'index, parfois avec un extrait du type « aucune information disponible ».

Un point que les pages qui rankent sur ce sujet traitent mal : la persistance. Google a indiqué qu'un noindex,follow maintenu très longtemps finit par être traité comme un noindex,nofollow. Le moteur considère qu'une page qu'il ne veut plus indexer ne mérite plus qu'il suive ses liens sortants sur la durée. Pour une page de tri ou de filtre, ça n'a aucune conséquence. Pour une page qui sert de relais de maillage vers du contenu stratégique, c'est un robinet qui se ferme sans bruit. La règle opérationnelle : noindex est fait pour sortir une page définitivement, pas pour la mettre en pause.

Côté robots.txt, rappelons le fait qui tranche le débat : Google a retiré le support de la directive noindex dans robots.txt le 1er septembre 2019 (Google Search Central). Ceux qui écrivent encore Noindex: dans leur robots.txt ne font rien du tout, le moteur ignore la ligne. Les seuls canaux qui font autorité aujourd'hui sont la meta robots pour le HTML et l'en-tête X-Robots-Tag pour tout le reste, PDF, images, fichiers générés.

Implémenter noindex sans casser le crawl

Trois canaux, trois usages. La balise meta robots, posée dans la section head du HTML, couvre l'immense majorité des cas pour des pages web classiques. L'en-tête HTTP X-Robots-Tag est la bonne réponse quand la ressource n'est pas du HTML, un PDF de catalogue, une image, un export : vous ne pouvez pas y insérer de balise, l'en-tête au niveau serveur prend le relais et accepte les mêmes valeurs, noindex, nofollow, noarchive. Le troisième « canal », robots.txt, ne gère pas l'indexation, seulement l'exploration : ne l'utilisez jamais pour désindexer.

Sur WordPress, qui motorise une large part du web, la directive se pilote sans toucher au code via les réglages d'un plugin SEO ou la case « Décourager les moteurs de recherche » des réglages de lecture, à manier avec prudence car elle s'applique à tout le site. La démonstration suivante montre la manipulation concrète sur une page isolée.

La règle d'or de l'implémentation tient en une phrase : laissez la page explorable le temps que la directive soit lue. Concrètement, vous posez le noindex, vous attendez la désindexation effective vérifiée dans Search Console, et seulement ensuite, si la volumétrie de crawl gaspillé le justifie, vous bloquez l'URL dans robots.txt. Inverser ces deux gestes est la faute la plus fréquente qu'on corrige en audit technique.

Où noindex compte dans une opération de netlinking

Pour un consultant netlinking, noindex est un outil de plomberie du PageRank interne. Toute page indexable absorbe une part du jus de lien qui circule dans le site. Quand un site empile des centaines de pages de filtres, de résultats de recherche interne ou d'archives datées, ce sont autant de fuites qui diluent la force transmise aux pages qui vendent ou qui rankent. Désindexer ces pages en noindex,follow nettoie l'index tout en laissant le PageRank traverser via les liens internes restants.

La nuance que beaucoup ratent : noindex ne récupère pas de budget d'exploration. Le robot continue de visiter la page pour relire la directive. Si votre vrai problème est le gaspillage de crawl sur des millions d'URL à facettes, c'est robots.txt et l'architecture des liens qu'il faut revoir, pas seulement le noindex. Les deux leviers se complètent, ils ne se substituent pas. Cette distinction sépare le SEO qui a lu une fiche outil de celui qui a déjà géré l'indexation d'un gros catalogue.

Côté liens externes, la logique vaut aussi quand vous achetez un placement : un article sponsorisé qui pointe vers vous n'a de valeur que s'il est indexé. Avant de valider un emplacement, on vérifie systématiquement que la page n'est pas en noindex, un oubli ou une manœuvre qui annule la transmission du signal. C'est précisément pour éviter ces angles morts que nous opérons Stringer en propre, avec des médias dont on contrôle l'état d'indexation page par page. Quand vous voulez calibrer une campagne de liens sur la durée, l'indexabilité de chaque support fait partie des contrôles non négociables, au même titre que le catalogue de médias consultable sans inscription qui rend cet état vérifiable à l'avance.

Les erreurs qu'on voit en audit

La première erreur, déjà citée, c'est le couple noindex plus robots.txt posé dans le mauvais ordre : la page reste indexée parce que Google ne peut plus lire la directive. La deuxième, c'est le conflit avec la balise canonical. Mettre un noindex sur une page qui se canonicalise vers une autre envoie deux ordres contradictoires : « ne m'indexe pas » et « considère-moi comme une variante de cette autre URL ». Google choisit lui-même quel signal suivre, et le résultat est imprévisible. Soit vous désindexez sans canonical, soit vous canonicalisez sans noindex, jamais les deux ensemble sur la même page.

Le troisième cas, le plus courant dans Search Console, c'est le rapport « Exclue par la balise noindex ». Il faut le lire à froid : la majorité du temps, c'est l'effet voulu, vos pages de tag ou de pagination font exactement leur travail. Le danger, c'est la poignée d'URL stratégiques qui s'y retrouvent par accident, un template qui a propagé un noindex global, une migration qui a laissé le réglage de préproduction en place. La vidéo suivante déroule la résolution pas à pas de cette alerte.

La quatrième erreur est plus insidieuse : utiliser noindex comme rustine sur du contenu pauvre ou généré par IA en masse, en espérant « cacher » le problème. Désindexer ne soigne pas la qualité, ça l'enterre. Si une section entière de votre site mérite un noindex de masse, la vraie question n'est pas technique, elle est éditoriale : pourquoi ces pages existent-elles. En 2026, avec les évaluations de qualité à l'échelle du site, accumuler des milliers de pages noindex pour masquer du thin content reste un signal de fond négatif, pas une solution.

À retenir côté opérationnel

noindex est une directive simple à écrire et facile à mal câbler. Le réflexe à garder : la page doit rester explorable le temps que la directive soit lue, le robots.txt vient après et seulement si nécessaire. Pour la pagination et les facettes, raisonnez en noindex,follow tant que le maillage doit continuer de passer, en gardant en tête que la directive ne rendra pas de budget de crawl. Et traitez chaque conflit avec la canonical comme une faute à corriger en priorité, pas comme un détail. Le reste, c'est de la discipline de mesure : inspection d'URL, lecture des logs, et vérification que ce que Search Console exclut correspond bien à votre intention.

Questions fréquentes

noindex et nofollow, quelle différence concrète pour un SEO ?

noindex agit sur l'indexation de la page elle-même : elle ne figurera pas dans les résultats. nofollow agit sur les liens : il indique de ne pas suivre une destination donnée et de ne pas lui transmettre de signal. L'un parle de la page courante, l'autre de ce qu'elle pointe. On les combine fréquemment, noindex,follow pour sortir une page de tri tout en laissant son PageRank irriguer le reste du site via ses liens internes.

Pourquoi ma page reste-t-elle indexée malgré le noindex ?

Dans la quasi-totalité des cas, l'URL est aussi bloquée dans robots.txt. Google ne peut plus explorer la page, donc il ne lit jamais la directive noindex et conserve l'ancienne version en index. Débloquez l'URL dans robots.txt, attendez un nouveau crawl, vérifiez la désindexation dans l'inspection d'URL de Search Console, puis seulement après, si besoin, refermez l'accès.

Faut-il mettre noindex sur les pages paginées et la navigation à facettes ?

Souvent oui, en noindex,follow, pour retirer ces variantes de l'index tout en laissant le maillage transmettre le signal vers les pages produits ou articles. Attention cependant : noindex ne récupère pas de budget d'exploration, le robot continue de visiter ces URL. Si la volumétrie de facettes explose le crawl, c'est l'architecture des liens et robots.txt qu'il faut traiter, pas le seul noindex.

noindex permet-il d'économiser du crawl budget ?

Non, c'est un contresens répandu. Pour appliquer un noindex, le moteur doit explorer la page et relire la directive à chaque passage. La désindexation allège l'index, pas l'exploration. Pour réduire réellement le crawl gaspillé, on agit sur robots.txt et sur la structure interne, en évitant de générer les URL inutiles à la source plutôt qu'en les désindexant après coup.

Peut-on combiner noindex et balise canonical sur la même page ?

À éviter. Vous envoyez deux instructions contradictoires : « ne m'indexe pas » et « traite-moi comme une variante de cette autre URL ». Google arbitre lui-même, le résultat est imprévisible et le signal canonical peut être ignoré. Tranchez : soit vous désindexez la page sans canonical, soit vous la canonicalisez vers son original sans noindex, jamais les deux ensemble.

Comment vérifier l'état noindex à grande échelle ?

L'inspection d'URL de Search Console donne le verdict page par page, fiable mais lente. Pour un site entier, croisez un crawler qui remonte la valeur de la meta robots et de l'en-tête X-Robots-Tag avec l'analyse des logs serveur pour voir ce que le robot visite réellement. Le rapport « Exclue par la balise noindex » sert de filet : confrontez sa liste à votre intention, l'écart révèle les accidents.

Quiz

Testez vos connaissances

Quiz : la directive noindex

1/3

Une page porte un noindex dans sa meta robots et est aussi bloquée dans robots.txt. Que se passe-t-il ?

Benoit Demonchaux

Fondateur et opérateur de Stringer Network. Édite et rédige le glossaire éditorial du site, ainsi que les contenus publiés sur le réseau de médias éditoriaux Stringer.

Termes connexes du glossaire

Balise canonical

Stringer Network décortique la balise canonical : signal réel pour Google, pièges JS, pagination et hreflang.

hreflang

Signal, pas directive : syntaxe, codes ISO, réciprocité et erreurs d’audit de la balise hreflang.

Netlinking

L'activité d'acquisition de liens entrants depuis d'autres sites.

Backlink

Lien hypertexte placé sur un autre site et pointant vers le vôtre.