lundi 7 octobre 2013

Le fichier robots.txt


 Le fichier robots.txt indique aux robots (ou spiders), les pages qui peuvent être crawlées ou pas, de même que les répertoires interdits aux crawlers. Si votre site possède un fichier robots.txt, les robots le liront avant de parcourir les pages de votre site. 

Étudions de plus près ce fichier robots.txt et plus particulièrement sa structure, les symboles et caractères spéciaux utilisés dans un fichier robots.txt, comment le rédiger correctement, où le placer ainsi que divers informations à connaître sur notre sujet.


Structure du fichier robots.txt


Le fichier robots.txt est un fichier texte. Pour le créer, vous devez indiquer deux directives :

  • User-agent pour indiquer le robot qui doit suivre les interdictions de crawl qui suivent;

  • Disallow vous permet de préciser l'interdiction.

Exemple :

User-agent: *
Disallow: /enconstruction/
Disallow: /admin/
Disallow: /*.php
Disallow: /repertoire/chemin/page1.html
Sitemap: http://www.monsite.fr/sitemap.xml

Dans cet exemple, nous demandons à tous les robots, avec le caractère universel étoile (*), de ne pas crawler les dossiers "enconstruction" et "admin".

La ligne suivante indique aux spiders de ne pas s'occuper des pages avec l'extension .php.

L'étoile remplace une séquence de caractères entre l'URL de la racine du site (http://www/monsite.fr/) et l'extension .php.

La ligne qui suit indique qu'il ne faut pas crawler la page (http://www.monsite.fr/repertoire/chemin/page1.html).

La dernière ligne indique la place du fichier sitemap (http://www.monsite.fr/sitemap.xml).

Les symboles et caractères spéciaux dans un fichier robots.txt

Le slash (/) après chaque Disallow est mis à la place de la racine du site.

Vous pouvez également utiliser :
  • le symbole dollar ($) pour indiquer la fin d'une URL.

  • Par exemple, vous pouvez bloquer l'ensemble des fichiers qui se terminent par .xls de la manière suivante :
    User-agent: Googlebot
    Disallow: /*.xls$

  • pour interdire l'accès aux URL qui comportent un point d'interrogation (?). Ainsi, chaque URL qui débute par le nom de domaine, suivi d'une chaîne de caractères, d'un point d'interrogation et de nouveau une chaîne de caractères, sera bloquée;

  • exemple : Disallow: *?

  • le dièse (#) pour mettre des commentaires dans le fichier robots.txt.

Conseils pour rédiger le fichier robots.txt

Le fichier robots.txt ne s'écrit pas n'importe comment :
  • User-agent et Disallow ne sont pas sensibles à la casse;

  • Pour ce qui est de l' URL, c'est le contraire. Elle est sensible à la casse. Écrivez les minuscules et écrivez les majuscules s'il y en a;

  • Évitez de placer des lignes vides dans le fichier robots.txt;

  • Veillez à ce qu'il n'y ait aucune erreur dans le fichier.

Emplacement du fichier robots.txt

Le fichier robots.txt doit être placé à la racine du site et doit être obligatoirement nommé "robots.txt".

Si vous le localisez dans un sous-répertoire, il ne sera pas valide.

Les spiders cherchent le fichier robots.txt à la racine du site uniquement.

Dans le cas où vous ne pouvez pas avoir accès à la racine du domaine, utilisez la balise meta robots.

À savoir sur le fichier robots.txt

Ce fichier n'est pas obligatoire. Si vous ne mettez pas de fichier robots.txt, vous autorisez les spiders à explorer la totalité des pages et dossiers de votre site.

Toutefois, il faut savoir que ce fichier n'empêche pas l'indexation des URL des pages d'un site si les spiders les trouvent.

De plus, il faut également savoir que les spiders ne lisent pas ce fichier à chaque passage. Ils l'examinent régulièrement, mais pas systématiquement.

Parfois il peut être préférable d'utiliser la balise Meta noindex pour empêcher l'indexation de la page ou un en-tête HTTP x-robots-tag pour limiter l'accès aux fichiers qui ne sont pas HTML comme des fichiers Excel.

Pour en savoir plus sur le fichier robots.txt : https://support.google.com/webmasters/answer/156449?hl=fr


 Certaines pages sensibles de votre site ne doivent pas apparaître sur les moteurs de recherche (ex : l’espace d’administration du site).    Pour indiquer à ces derniers qu’ils ne doivent pas indexer une partie de site, il est important de configurer un fichier robots.txt.

Aucun commentaire: