Étudions de plus près ce fichier robots.txt et plus particulièrement sa structure, les symboles et caractères spéciaux utilisés dans un fichier robots.txt, comment le rédiger correctement, où le placer ainsi que divers informations à connaître sur notre sujet.
Structure du fichier robots.txt
Le fichier robots.txt est un fichier texte. Pour le créer, vous devez indiquer deux directives :
- User-agent pour indiquer le robot qui doit suivre les interdictions de crawl qui suivent;
- Disallow vous permet de préciser l'interdiction.
Exemple :
User-agent: *
Disallow: /enconstruction/
Disallow: /admin/
Disallow: /*.php
Disallow: /repertoire/chemin/page1.html
Sitemap: http://www.monsite.fr/sitemap.xml
Dans cet exemple, nous demandons à tous les robots, avec le caractère universel étoile (*), de ne pas crawler les dossiers "enconstruction" et "admin".
La ligne suivante indique aux spiders de ne pas s'occuper des pages avec l'extension .php.
L'étoile remplace une séquence de caractères entre l'URL de la racine du site (http://www/monsite.fr/) et l'extension .php.
La ligne qui suit indique qu'il ne faut pas crawler la page (http://www.monsite.fr/repertoire/chemin/page1.html).
La dernière ligne indique la place du fichier sitemap (http://www.monsite.fr/sitemap.xml).
Les symboles et caractères spéciaux dans un fichier robots.txt
Le slash (/) après chaque Disallow est mis à la place de la racine du site.Vous pouvez également utiliser :
- le symbole dollar ($) pour indiquer la fin d'une URL.
Par exemple, vous pouvez bloquer l'ensemble des fichiers qui se terminent par .xls de la manière suivante :
- User-agent: Googlebot
- pour interdire l'accès aux URL qui comportent un point d'interrogation (?). Ainsi, chaque URL qui débute par le nom de domaine, suivi d'une chaîne de caractères, d'un point d'interrogation et de nouveau une chaîne de caractères, sera bloquée;
- le dièse (#) pour mettre des commentaires dans le fichier robots.txt.
Disallow: /*.xls$
exemple : Disallow: *?
Conseils pour rédiger le fichier robots.txt
Le fichier robots.txt ne s'écrit pas n'importe comment :- User-agent et Disallow ne sont pas sensibles à la casse;
- Pour ce qui est de l' URL, c'est le contraire. Elle est sensible à la casse. Écrivez les minuscules et écrivez les majuscules s'il y en a;
- Évitez de placer des lignes vides dans le fichier robots.txt;
- Veillez à ce qu'il n'y ait aucune erreur dans le fichier.
Emplacement du fichier robots.txt
Le fichier robots.txt doit être placé à la racine du site et doit être obligatoirement nommé "robots.txt".Si vous le localisez dans un sous-répertoire, il ne sera pas valide.
Les spiders cherchent le fichier robots.txt à la racine du site uniquement.
Dans le cas où vous ne pouvez pas avoir accès à la racine du domaine, utilisez la balise meta robots.
À savoir sur le fichier robots.txt
Ce fichier n'est pas obligatoire. Si vous ne mettez pas de fichier robots.txt, vous autorisez les spiders à explorer la totalité des pages et dossiers de votre site.Toutefois, il faut savoir que ce fichier n'empêche pas l'indexation des URL des pages d'un site si les spiders les trouvent.
De plus, il faut également savoir que les spiders ne lisent pas ce fichier à chaque passage. Ils l'examinent régulièrement, mais pas systématiquement.
Parfois il peut être préférable d'utiliser la balise Meta noindex pour empêcher l'indexation de la page ou un en-tête HTTP x-robots-tag pour limiter l'accès aux fichiers qui ne sont pas HTML comme des fichiers Excel.
Pour en savoir plus sur le fichier robots.txt : https://support.google.com/webmasters/answer/156449?hl=fr
Aucun commentaire:
La publication de nouveaux commentaires n'est pas autorisée.