Indexation dans les Moteurs de Recherche 2

Indexation dans les Moteurs de Recherche

La première chose qu’un webmaster doit faire est de vérifier que le contenu du site web est bien accessible pour les moteurs de recherche . L’indexation de votre site web désigne l’action du programme d’exploration d’un moteur de recherche  comme Google qui parcours un site ( « crawl » en anglais) et indexe son contenu. Lorsqu’un  robot indexe un site, cela signifie qu’il visite le site, en copie le contenu et stocke le contenu qui l’intéresse..

Le cas de Google Bot

Googlebot, va explorer les pages du web pour suivre les liens présents et

découvrir au fur et à mesure de nouvelles pages et de nouveaux contenus. Il visite les pages de votre site web et les indexe dans la base de données. Les contenus de bonne qualité sont place dans l’index primaire et ceux de qualité moindre. Tous les sites ne sont donc pas placés au même niveau de valeur aux yeux de Google et il est aisé de comprendre que vous aurez tout intérêt à positionner vos pages stratégiques dans l’index principal et non dans le secondaire.

Comment savoir si vos pages  web sont dans l’index  Google?

Pour savoir si vos pages sont présentes dans l’index, effectuez la requête suivante : site: www.votresite.com qui vous indiquera le nombre de résultats obtenus par Google sur cette requête. Ce nombre correspond à la liste des pages de votre site indexées (de manière générales).

Le fichier robots.txt

Le fichier robots.txt est stocké à la  racine de votre serveur web  et a pour mission d’empêcher les moteurs de recherche (robots d’indexation/ crawlers) d’accéder à tout ou partie de votre site. Un problème courant est d’oublier de lever l’interdiction de parcours du site au moment de sa mise en production ou de commettre des erreurs en modifiant le fichier.

robtos txt 

Google fournit un outil pour vérifier votre robot.txt . Si les robots d’indexation ne doivent pas explorer certaines pages web, ces pages peuvent apparaître dans les pages de résultats de recherche de moteurs de recherche ou SERP . Avec la balise meta robots, vous pouvez vraiment empêcher les moteurs de recherche d’afficher dans leurs résultats les pages que vous ne souhaitez pas voir apparaître. L’attribut robots de la balise meta est utilisé pour donner des directives sur la manière d’explorer, indexer et parcourir les liens sur une page.

Les commandes du robots.txt

Pour autoriser l’indexation des pages d’un site User-agent: * Disallow:           on ne bloque rien. 2ème méthode User-agent: * Allow: / on autorise les robots à indexer toutes les pages. Bloquer l’indexation de toute les pages User-agent: * Disallow: /dossier

Robots.txt : ce qu’il ne faut surtout pas faire

  • un changement d’URL du robots.txt (qui ne se trouve plus à la racine)
  • l’URL du robots.txt qui renvoie une erreur (404, 500…)
  • le robots.txt écrasé par la version en pré-production (dans laquelle est mentionnée une directive disallow/ qui bloque tout le site)
  • une ligne blanche dans un bloc de directives
  • un mauvais encodage du fichier (il doit être en UTF-8)
  • un mauvais ordre des blocs de directives

Etat d’indexation de votre site web et des versions en cache

La version en cache d’une page web correspond à la version de la page telle qu’elle était lors du dernier passage du robot d’indexation sur votre site web. C’est une information disponible : il vous suffit d’utiliser la commande « cache » (voir image ci-dessous) puis de mentionner l’adresse du site Le cache permet de savoir si la page a changé depuis la dernière visite de GoogleBot. .On compare la version « en cache » de la page à celle que Googlebot a dans son index

. indexation google

Le but de Google étant d’avoir dans son index les pages les plus « fraîches » possibles. Un site web actif est visité et indexé p régulièrement par les robots qu’un site sans nouveau contenu : l’âge du cache de Google est donc un bon indicateur de qualité de vos pages web .

Examen des codes de statut HTTP

Un serveur en bon état de marche renvoie un code d’état avec une valeur de 200 Un état 4xx ou 5xx indique une une erreur, qui empêchera les moteurs de recherche d’accéder au contenu de la page. Pour vérifier qu’un site web est en bon état on lance une exploration de l’ensemble des pages du site. Un scénario fréquent est une page n’existe plus dans son emplacement initial et qui provoque une erreur 404 car elle a été déplacée ou renommée. Le webmaster doit effectuer une redirection 301 est la meilleure façon de gérer cette situation, car les moteurs de recherche doivent ce déplacement d’url  correctement et transférer toute l’autorité des liens pointant vers la page qui a été déplacée vers la nouvelle. Consultez cette vidéo de Matt Cutts chez Google qui explique pourquoi vous devez utiliser des redirection 301 :

Les liens cassés, les codes 4xx et 5xx nuisent à l’expérience utilisateur et donc a vos efforts SEO. Si vous avez des liens externes cassés, contactez les propriétaires de site. Vérifiez scrupuleusement vos liens, remplacez ou supprimez ceux qui sont inopérants, et dans le cas d’erreurs de serveur, contactez votre hébergeur. Enfin les bots peuvent considérer un site avec WWW et sans WWW comme deux domaines distincts. Vous devez donc paramétrer les redirections 301 vers votre version préférée et l’indiquer dans la Google Search Console. Les codes HTTP  les plus courants sont :

  • 200 : succès de la requête ;
  • 301 et 302 : redirection, respectivement permanente et temporaire ;
  • 401 : utilisateur non authentifié ;
  • 403 : accès refusé ;
  • 404 : page non trouvée ;
  • 500 et 503 : erreur serveur ;
  • 504 : le serveur n’a pas répondu.

Fonctionnement des moteurs de recherche

Nous avons vu en étudiant l’indexation comment procèdent les moteurs de recherche pour indexer les pages des site web . Deux parametres clés permetten de référencer les sites web :

  1. Le contenu du site web.

Lorsqu’ils parcourent les sites web, les spider analysent chacune de leurs URL et essaient de déterminer les sujets qui sont abordés. Ils recherchent également les méta-données dans le code HTML, telles que certaines balises spécifiques, afin d’identifier la pertinence de chaque page par rapport à des sujets précis.

  1. Les liens vers le site web.

Les robots des moteurs recherchent également les liens vers d’autres sites. car cela leur donnent des indication de pertinence. En théorie les liens entrants reviennent à une recommandation positive pour un site internet mais cai c’est la qualite des liens qui importe plus que la quantite. Les moteurs de recherche accordent plus de valeur à un lien publié sur un site web de confiance, tel que wikipedia, qu’un lien sur un blog peu connu. Ce phénomène  s’appelle, dans le jargon des SEO « link juice » ou encore « jus de liens ». Lors de la saisie d’une requête, le moteur de recherche parcours son index afin de déterminer les informations les plus pertinentes, puis affiche les résultats ( On parle de Search Engine Result P ). Ces résultats sont ensuite triés par ordre de pertinence. La même requête executee sur différents moteurs de recherche vous donneras des résultats différents: Chaque moteur de recherche utilise son propre algorithme qui s’appuie sur des stratégie de classement de distinctes. Google utilise pres de 1000 carateristiques  pour déterminer la pertinence d’un site web par rapport à une requête de recherche. Voici les données importantes que l’algorithme du moteur de recherche prend en compte :

  • Le contenu du site web
  • La structure et les liens internes du site web
  • La situation géographique de l’internaute
  • L’optimisation pour les mobiles
  • Le temps de chargement
  • L’accessibilité du serveur
  • Les lien sur les réseaux sociaux

Les moteurs de recherche essaient de refléter la pensée humaine pour analyser le contenu du Web  

Google répond à environ 25 % des requêtes grace un algorithme basee sur l’intelligence artificielle (IA):« Rankbrain » qui  se compose d’algorithmes d’apprentissage automatique. Le fait que les moteurs de recherche deviennent de plus en plus fins a des conséquences  sur le SEO: Cela oblige de concentrer davantage vos efforts sur la création d’un contenu pertinent et cohérent propre à votre cible (et à vos clients potentiels).

{{cta(‘9c7ebfac-b153-4f6a-a7cd-e3d8cb6e4396’)}}

Go for it

Pierre-Luc GERVAIS

Ingénieur EEA ,Pierre-Luc GERVAIS a debute en SSI chez Transiciel .Consultant SI pour de grands groupes Télécom ou bancaire (Cegetel, SFR , Euronext ). Fin 1990 Carriere aux USA ou jdans la logistique (UPS) et l’industrie automobile (Toyota),CRM) . Après une mission au sein d’une NGO à Madagascar, PLG a fondé une agence digitale en externalisation à Madagascar en 2008 Orion digital a adopte une démarche Inbound Marketketing l et est donc un partenaire de choix pour externaliser en toute sécurité votre transformation digitale . Nous sommes Hubspot Partner depuis 2018.
Pierre-Luc GERVAIS
Go for it