Dernière mise à jour :2008-07-24

informatique

Introduction aux spécifications concernant les bots et spiders

Si vous êtes administrateur d'un site web, il vous est peut-être déjà arriver de trouver une référence à votre site sur un moteur de recherche dans lequel, pour une raison ou une autre, vous n'auriez pas souhaiter voir apparaitre votre site. Peut-être aussi, qu'à un certain moment, vous vous êtes apperçu que plusieurs robots indexaient des pages d'un répertoire de votre site qui selon vous n'aurait pas du être visité par ces robots. Pour contrer ce problème, la plupart des robots sur le web proposent deux options différentes aux administrateurs:

1. Le protocol d'exclusion des robots

Ce protocol est une méthode permettant aux administrateurs de sites web d'indiquer quelles sections de leurs sites peuvent ou ne peuvent pas être visités par les robots. En fait, la première opération effectuer par un robot qui rend visite à un site est la détection du fichier nommé 'robots.txt' placé à la racine du site. Si le robot trouve un tel fichier, il le consulte et l'analyse.

Il est à noter qu'il ne peut y avoir qu'un seul fichier 'robots.txt' par site web. Si votre site est subdivisé en plusieurs sous-sites, l'ensemble des directives pour ceux-ci devront être placé dans le seul et unique fichier 'robots.txt' du site. De plus, il est important de noter que les URLs doivent respecter la casse (case sensitive) et donc, le nom de fichier 'robots.txt' doit être écrit en lettres minuscules.

Il n'existe pas de standard réel indiqué par une organisation commercial quelconque indiquant une norme qu'en à ce qui doit paraitre dans les fichiers 'robots.txt' mais le 30 juin 1994, fût établit une spésification par un regroupement de créateurs de robots et d'autres personnes intéressés de pret par ceux-ci. La plupart des robots vont donc ce fier et respecter les directives d'un fichier 'robots.txt' qui respectent cette spécification.

Spécification sur le nom du fichier

Pourquoi avoir choisit 'robots.txt' comme nom de fichier dans la spécification:

1. Le nom de fichier respecte toutes les restrictions qu'un système d'exploitation peut apporter aux noms de fichiers
2. L'extention du fichier ne devait pas entrainer une configuration supplémentaire au serveur
3. Le nom de fichier devait être descriptif et facile à mémoriser
4. Les probabilités qu'un tel fichiers existe déjà sur le serveur devaient être minimales.

Spécification sur la sémantique

Le fichier doit être formé de plusieurs enregistrements (instructions) étallés sur plusieurs lignes et pouvant être séparé de une ou plusieurs lignes blanches.

La forme des enregistrements est la suivante: <champs>:<espace optionnel><valeur><espace optionnel>

La notation du champs est non sensible à la casse.

Les commentaire dans ce fichier sont notés façon UNIX, c'est à dire à l'aide du caractère '#'.

Les enregistrements doivents toujours commencés par ceux concernant les 'user-agent' suivit d'une ou plusieurs lignes de type 'Disallow'. À noter que toute entête non reconnu dans le protocol ne sera pas prise en charge par les robots.

User-agent

La valeur de ce ou ces champs décrit le nom du ou des robots dont l'enregistrement décrit la ou les politiques d'accès. Au moins un champ de ce type doit être présent par enregistrement. Le nom du robot doit (selon recommandation) être indiqué sans noter la version de celui-ci. Si la valeur noté est '*', l'enregistrement décrit alors le type d'accès par défaut.

Disallow

La valeur de ce champ décrit une URL partiel indiquant quelle partie du site est interdite. Le chemin d'accès peut être partiel ou complet. Donc, si vous désirez restreindre l'accès à tout fichiers d'un répertoire nommé 'principal', vous pouvez noter comme suit: /principal. Par contre, si vous ne désirez restreindre l'accès qu'au fichier 'interdit.htm' du dossier 'principal' vous pouvez utiliser la notation suivante: /principal/interdit.htm.

Exemple de fichier 'robots.txt'

# Fichier robots.txt pour le site http://www.interdiction.com/
# Interdir l'acces a tous les robots sur le dossier interdit sauf au robot WebSpider

User-agent: *
Disallow: /interdit/

User-agent: WebSpider
Disallow:

2. La balise META 'ROBOTS'

L'avantage de l'utilisation de cette balise c'est que celle-ci ne nécessite aucune intervention de la par de l'administrateur d'un site concernant plusieurs utilisateurs. Chaque utilisateur peut joindre cette balise dans ses fichiers et ainsi restreindre l'indexation de ceux-ci ou indiquer que les liens qu'ils contiennent ne doivent pas être suivits par le robot. Il est à noter par contre qu'au moment ou je rédige ce texte, cette balise n'est utilisée que par une nombre restreind de robots.

Spécification

Comme tout autre balise META, celle-ci doit être placée dans l'entête du fichier HTML c'est à dire entre les balises et . L'attribut NAME de la balise doit contenir la valeur 'robots'. Les directives sont décrites dans la valeur de l'attribut CONTENT. Les différentes directives sont les suivantes:

1. index | noindex
Indique au robot qu'il peut ou non indexer la page.

2. follow | nofollow
Indique au robot qu'il peut ou non suivre les liens dans la page.

Par exemple, si vous désirez que votre page soit indexé mais que vous préférez que les liens qu'elle contient ne soient pas suivit, votre balise devrait ressembler à ce qui suit:

<META NAME="robots" CONTENT="index,nofollow">

Une bonne administration d'un site web doit toujours comprendre de tels outils pour éviter des problèmes d'accès indésirables à certains fichiers par des robots.

Auteur : Sylvain Bilodeau

Date de mise en ligne : 2001-10-29

Aucun commentaire pour l'instant.