Le fichier robots.txt est utilisé pour autoriser ou bloquer l’accès à votre site par les robots des moteurs de recherche. N’étant pas forcément installé par défaut sur un serveur, le fichier n’est pas non plus généré par WordPress lors de l’installation du CMS.
Je me permets de vous avertir sur l’importance de ce fichier dans le sens ou il peut, s’il est mal configuré, empêcher purement et simplement le référencement de tout votre site. En vous rendant sur l’admin WordPress, vous pouvez le créer à partir de Réglages > Vie privée et en sélectionnant :
Je souhaite bloquer les moteurs de recherche, mais autoriser les visiteurs normaux
En revanche, il semblerait qu’un bug empêche la modification du fichier pour revenir à l’état initial, à savoir le fait de rendre le blog visible à tous, y compris les moteurs de recherche. J’en ai fait les frais sur mon blog et je ne souhaite pas que cela vous arrive. Prenez garde donc si vous avez sélectionné puis désélectionné cette option. Editez le fichier robots.txt à la main, c’est plus sûr.
Pour info, si vous souhaitez autoriser l’indexation de votre site par les robots, voici la syntaxe à intégrer :
User-Agent: *
Allow: /
Cependant, si pour une raison ou une autre, vous souhaitez interdire l’indexation de votre site à certains robots, voici la marche à suivre :
User-Agent : Googlebot
Disallow : /
Ici par exemple, on choisit d’interdire au robot Google de parcourir l’ensemble de votre site web. Enfin, si vous ne rencontrez pas de problème d’indexation, vérifiez tout de même que vous avez un fichier robots.txt avec la syntaxe par défaut autorisant l’indexation de votre site, c’est plus propre. Le fichier doit bien se nommer « robots.txt », tout en minuscules et doit être placé à la racine de votre site.
Luc
Je pensais que WordPress générait le robots.txt à « la volée » via son routeur interne, et non qu’il le créait physiquement (d’ailleurs, il faudrait donner les droits d’écriture sur le wwwroot ce qui serait relativement dangereux).
Du coup, ce serait un bug dans le moteur de WordPress ? Sur quel(s) version(s) ?
Arnaud auteur de l’article
J’ai rencontré ce bug sur la dernière version de WordPress, à savoir la 2.6.2…
Pfff
Merci du conseil 😉
Infoslibres.fr
Pour ceux qui sont intéressé, voici le contenu de notre robots.txt :
User-agent: *
Disallow: /cgi-bin/
Disallow: /memo/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */comments/
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.infoslibres.fr/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN
beni
Et on le trouve où le robot.txt
car jai fait tout mon blog par le ftp et je trouve rien…
Benoît
Normal, c’est à toi de le créer dans ce cas 😉
Arnaud auteur de l’article
> beni : le fichier robots.txt doit se trouver dans le répertoire racine de ton site. Si ce n’est pas le cas, alors dans ce cas tu dois le créer, comme l’a dit Benoît.
Ne négligez pas votre fichier robots.txt | Mounik
[…] (Source : http://www.wordpress-fr.net) […]
yesil kart
Pourquoi ce site Web n’ont pas l’autre appui de langues ?
Un peu de referencement: Plugin All in O… | Cyril Mazard
[…] Optimisation du référencement dans les moteurs de recherche robot.txt en position (trouvé sur http://www.wordpress-fr.net/blog/referencement/ne-negligez-pas-votre-fichier-robotstxt#comment-12653… […]
yak
Donc, l’écriture suivant n’est pas l’écriture adéquate. Il faut un fichier plus développé comme l’écrit infoslibres.fr ?
User-Agent: *
Allow: /
atophisse
quel est l’avantage réel d’un robot par rapport au sitemap….
Mon site est référencé pour toutes ses pages,du coup je me demande à quoi sert un robot, sachant que google va de partout et que je peux exclure les pages que je ne souhaite pas indexer à travers l’administration de wordpress
Luc
L’avantage est flagrante : un sitemap ne garantie en rien l’indexation des pages répertoriées à l’intérieur. C’est juste une info que les robots peuvent utiliser.
Un robots.txt, lui, permet de bloquer l’accès au robot et c’est une « valeur sûr » puisque la majorité des moteurs de recherche sont compatibles…
depannage mac
désolé mais la ca devient compliqué de devoir implémenter autant de chose sur un site !
qqun sait il évaluer le facteur / poids d’un robots sur le référencement d’un site ?
j’y vois deja un interet au niveau secu …
Sebastien
Luc
En réalité, c assez compliqué de l’évaluer.
Ne pas le mettre n’impliquera surement pas un mauvais referencement de ton site.
Par contre, en mettre un mal rédigé peut causer de graves dommages. Cet article en est la preuve !
Concernant l’interêt que tu y vois concernant la sécurité, je ne te suis pas du tout. Au mieux, le robots.txt va te permettre d’empêcher les robots d’indexer des sections sensibles de ton sites. Ce qui permettra à d’autres robots bien moins intentionnés de savoir exactement où lancer certaines attaques…
Donc il est extremement important d’utiliser d’autres moyens pour empêcher l’indexation des backoffice que de le mettre dans le robots.txt…
Cyril
J’ai bien créer le fichier robots.txt je l’ai placé à la racine de mon site mais le fichier détecté est toujours le même cad Disallow, comment faire pour le supprimer et mettre en ligne celui que j’ai créer
Merci de vos réposnes
Le fichier Robots.txt pour WordPress en 2011 | wordbook
[…] Ne négligez pas votre fichier robots.txt, par Arnaud, expert en référencement et membre du staff WordPress francophone, […]
Thème Wordpress
Merci pour ces précisions, en revanche je n’ai pas ce fichier dans ma racine, ni dans mon sous domaine mais cela n’empêche pas l’indexation de mes pages, dois je quand même le créer ?
olaclio
Bonjour,
impossible de trouver mon site via le moteur de recherche google http://www.dolce-terra.com/FR/. J’avais initialement coché l’option de non visibilité. J’ai depuis modifié l’option pour être visible, ajouté une ligne dans le fichier fonction du theme pour que le robots soit vus, ajouter le fichier robot à la racine dolce-terra.com. Mais je reste introuvable… Peut etre est ce lié aux fichier racines? merci de votre aide
Boulay
Je vois bien les commentaire pour modifier le fichier robots.txt
Mais comment faire exactement pouyr le trouver?
ou insérer un nouveau et comment?
Expliqué exactement, je suis débutant
Très ennuyeux ce bug
Margaux
Merci pour cet article je viens de créer mon fichier robot.txt 🙂
Margaux
http://www.laroutedelaforme.fr
Lecomtus
Bonjour,
En lisant les commentaires,
J’ajouterais juste que ce fichier robots.txt ne se trouve pas par défaut sur votre serveur car il est généré automatiquement par WORDPRESS quand on en fait la requête : http://www.mondomaine/robots.txt
>>> vérifiez avec votre site (avec WP)
D’après Google, non il n’est pas nécessaire de créer un fichier robots.txt si celui-ci ne sert à rien. (aucune incidence sur l’indexation de votre site).
Le fichier robot n’est qu’un aiguillage pour les robots, attention donc à la sécurité de votre site.
Par defaut, on trouve ceci pour WP :
User-agent: *
Disallow: /google/wp-admin/
Disallow: /google/wp-includes/
Si vous créez un fichier robots.txt et que vous le placez à la racine de votre domaine, il prendra le dessus sur celui généré automatiquement par WP.