Ne négligez pas votre fichier robots.txt

Ne négligez pas votre fichier robots.txt

Le fichier robots.txt est utilisé pour autoriser ou bloquer l’accès à votre site par les robots des moteurs de recherche. N’étant pas forcément installé par défaut sur un serveur, le fichier n’est pas non plus généré par WordPress lors de l’installation du CMS.

Je me permets de vous avertir sur l’importance de ce fichier dans le sens ou il peut, s’il est mal configuré, empêcher purement et simplement le référencement de tout votre site. En vous rendant sur l’admin WordPress, vous pouvez le créer à partir de Réglages > Vie privée et en sélectionnant :

Je souhaite bloquer les moteurs de recherche, mais autoriser les visiteurs normaux

En revanche, il semblerait qu’un bug empêche la modification du fichier pour revenir à l’état initial, à savoir le fait de rendre le blog visible à tous, y compris les moteurs de recherche. J’en ai fait les frais sur mon blog et je ne souhaite pas que cela vous arrive. Prenez garde donc si vous avez sélectionné puis désélectionné cette option. Editez le fichier robots.txt à la main, c’est plus sûr.

Pour info, si vous souhaitez autoriser l’indexation de votre site par les robots, voici la syntaxe à intégrer :

User-Agent: *
Allow: /

Cependant, si pour une raison ou une autre, vous souhaitez interdire l’indexation de votre site à certains robots, voici la marche à suivre :

User-Agent : Googlebot
Disallow : /

Ici par exemple, on choisit d’interdire au robot Google de parcourir l’ensemble de votre site web. Enfin, si vous ne rencontrez pas de problème d’indexation, vérifiez tout de même que vous avez un fichier robots.txt avec la syntaxe par défaut autorisant l’indexation de votre site, c’est plus propre. Le fichier doit bien se nommer « robots.txt », tout en minuscules et doit être placé à la racine de votre site.

> En savoir plus sur le fichier robots.txt.

22 commentaires

  1. Luc

    Je pensais que WordPress générait le robots.txt à « la volée » via son routeur interne, et non qu’il le créait physiquement (d’ailleurs, il faudrait donner les droits d’écriture sur le wwwroot ce qui serait relativement dangereux).
    Du coup, ce serait un bug dans le moteur de WordPress ? Sur quel(s) version(s) ?

  2. Infoslibres.fr

    Pour ceux qui sont intéressé, voici le contenu de notre robots.txt :
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /memo/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /comments/
    Disallow: /category/*/*
    Disallow: */trackback/
    Disallow: */comments/
    Disallow: /*?*
    Disallow: /*?

    Allow: /wp-content/uploads/

    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$

    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*

    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*

    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /

    # digg mirror
    User-agent: duggmirror
    Disallow: /

    # BEGIN XML-SITEMAP-PLUGIN
    Sitemap: http://www.infoslibres.fr/sitemap.xml.gz
    # END XML-SITEMAP-PLUGIN

  3. Arnaud auteur de l’article

    > beni : le fichier robots.txt doit se trouver dans le répertoire racine de ton site. Si ce n’est pas le cas, alors dans ce cas tu dois le créer, comme l’a dit Benoît.

  4. yak

    Donc, l’écriture suivant n’est pas l’écriture adéquate. Il faut un fichier plus développé comme l’écrit infoslibres.fr ?

    User-Agent: *
    Allow: /

  5. atophisse

    quel est l’avantage réel d’un robot par rapport au sitemap….
    Mon site est référencé pour toutes ses pages,du coup je me demande à quoi sert un robot, sachant que google va de partout et que je peux exclure les pages que je ne souhaite pas indexer à travers l’administration de wordpress

  6. Luc

    L’avantage est flagrante : un sitemap ne garantie en rien l’indexation des pages répertoriées à l’intérieur. C’est juste une info que les robots peuvent utiliser.
    Un robots.txt, lui, permet de bloquer l’accès au robot et c’est une « valeur sûr » puisque la majorité des moteurs de recherche sont compatibles…

  7. depannage mac

    désolé mais la ca devient compliqué de devoir implémenter autant de chose sur un site !

    qqun sait il évaluer le facteur / poids d’un robots sur le référencement d’un site ?

    j’y vois deja un interet au niveau secu …

    Sebastien

  8. Luc

    En réalité, c assez compliqué de l’évaluer.

    Ne pas le mettre n’impliquera surement pas un mauvais referencement de ton site.

    Par contre, en mettre un mal rédigé peut causer de graves dommages. Cet article en est la preuve !

    Concernant l’interêt que tu y vois concernant la sécurité, je ne te suis pas du tout. Au mieux, le robots.txt va te permettre d’empêcher les robots d’indexer des sections sensibles de ton sites. Ce qui permettra à d’autres robots bien moins intentionnés de savoir exactement où lancer certaines attaques…

    Donc il est extremement important d’utiliser d’autres moyens pour empêcher l’indexation des backoffice que de le mettre dans le robots.txt…

  9. Cyril

    J’ai bien créer le fichier robots.txt je l’ai placé à la racine de mon site mais le fichier détecté est toujours le même cad Disallow, comment faire pour le supprimer et mettre en ligne celui que j’ai créer
    Merci de vos réposnes

  10. Thème Wordpress

    Merci pour ces précisions, en revanche je n’ai pas ce fichier dans ma racine, ni dans mon sous domaine mais cela n’empêche pas l’indexation de mes pages, dois je quand même le créer ?

  11. olaclio

    Bonjour,
    impossible de trouver mon site via le moteur de recherche google http://www.dolce-terra.com/FR/. J’avais initialement coché l’option de non visibilité. J’ai depuis modifié l’option pour être visible, ajouté une ligne dans le fichier fonction du theme pour que le robots soit vus, ajouter le fichier robot à la racine dolce-terra.com. Mais je reste introuvable… Peut etre est ce lié aux fichier racines? merci de votre aide

  12. Boulay

    Je vois bien les commentaire pour modifier le fichier robots.txt
    Mais comment faire exactement pouyr le trouver?
    ou insérer un nouveau et comment?
    Expliqué exactement, je suis débutant
    Très ennuyeux ce bug

  13. Lecomtus

    Bonjour,

    En lisant les commentaires,

    J’ajouterais juste que ce fichier robots.txt ne se trouve pas par défaut sur votre serveur car il est généré automatiquement par WORDPRESS quand on en fait la requête : http://www.mondomaine/robots.txt
    >>> vérifiez avec votre site (avec WP)

    D’après Google, non il n’est pas nécessaire de créer un fichier robots.txt si celui-ci ne sert à rien. (aucune incidence sur l’indexation de votre site).

    Le fichier robot n’est qu’un aiguillage pour les robots, attention donc à la sécurité de votre site.

    Par defaut, on trouve ceci pour WP :
    User-agent: *
    Disallow: /google/wp-admin/
    Disallow: /google/wp-includes/

    Si vous créez un fichier robots.txt et que vous le placez à la racine de votre domaine, il prendra le dessus sur celui généré automatiquement par WP.

Les commentaires sont fermés