Accueil /  Blog / SEO / Optimiser l’indexation de son site

Optimiser l’indexation de son site

Publié le lundi 23 octobre 2017

Bonnes pratiques et concept à connaître pour améliorer son SEO

Logo Optimize.me
Cet article est proposé par notre partenaire SEO Optimiz.me, centre de formation au webmarketing.

Le référencement naturel repose avant tout sur l’activité de spiders ou bots, qui parcourent le web en suivant des liens. Pour simplifier, un spider va visiter une page, copier son contenu dans un cache qui sera traité ensuite par les différents algorithmes des différents moteurs de recherche. L’indexation d’une page web est donc l’acte fondateur du référencement de cette dernière. Sans indexation, il ne peut y avoir de positionnement et donc de trafic SEO…
Je vais vous présenter dans cet article, les différents concepts et bonnes pratiques à maitriser afin d’optimiser au mieux ce premier contact indispensable avec Google, Bing, Yahoo ou Qwant…

Indexation et positionnement

Dans un premier temps donc, vous l’aurez compris, les différents moteurs de recherche utilisent des robots, appelés aussi spiders ou crawlers, leur vocation est de parcourir et de collecter des données. Ils n’ont pas une vocation d’analyse des contenus et des liens. Ils parcourent le web depuis des pages déjà existantes et vont découvrir de nouveaux contenus, de nouveaux sites, promus par des liens internes ou externes. C’est le cas notamment pour Googlebot et ses différentes formes (il existe Google Bot Regular, un google bot pour smartphone, un google bot pour téléphones à clapet…).
Chaque contenu récupéré par un bot, est placé dans un index sur des serveurs hébergés dans différents data center.
Une fois qu’un contenu est placé dans cet index, il va être traité par différents logiciels complexes qui appliqueront des algorithmes. L’objectif pour un moteur de Google est de savoir si ce contenu est intéressant. C’est là qu’arrivent deux nouvelles notions :

L’index secondaire de Google : c’est là où est stocké le contenu de toute nouvelle page. A noter que depuis la sortie de Google Caffeine en 2010, l’indexation d’une page permet de la mettre instantanément à disposition dans Google. Attention je ne dis pas que vous la trouverez avec un mot clé, mais si vous rechercher l’url de la page que vous venez de faire indexer, vous la retrouverez dans la SERP de Google… Cet index secondaire et en quelque sorte une salle d’attente, les contenus patientent ici avant d’être ou ne pas être positionnés sur des expressions… Il faut retenir cela : indexation n’est pas positionnement.

Après quelques minutes à plusieurs semaines (un site à très forte autorité verra le travail de positionnement s’accélérer) les algorithmes commenceront à positionner ce contenu sur différentes expressions, ce positionnement variera dans le temps bien évidemment mais là je suis trop bavard…

Vous imaginez qu’à l’échelle mondiale, les index pèsent très lourd, et cela a donc un coût énorme en termes d’infrastructure pour une marque comme Google… L’algorithmie de Google vise à donc à enlever de son index principal, toutes les pages inutiles, dupliquées notamment sont enlevées pour faire un grand ménage et gagner de la place pour les vraies nouvelles url vecteur d’un contenu pertinent et unique…

Connaissez-vous le « Crawl Budget » ?
Il s’agit d’un terme à la mode, mais qu’en est-il exactement ?

Le crawl budget est un principe simple. Google attribuerait, en fonction de l’intérêt trouvé pour vos contenus, plus ou moins de ressources de crawl tous les jours pour votre site Internet. Comme vu précédemment, le coût d’infrastructure est très élevé, Google préfère donc réserver un maximum de ressources pour les meilleurs contenus. Donc plus votre site a un Crawl budget élevé plus cela révèle que Google a confiance en vous et vous considère comme étant très pertinent.

Comme nous l’avons vu précédemment indexation n’est pas positionnement, donc au final, si vous augmentez votre budget de fonctionnement de plusieurs milliers de dollars juste pour doubler votre crawl budget, sachez que cela n’aura aucun impact sur votre ranking, mais uniquement un impact sur votre vitesse d’indexation et l’arrivée plus rapide de mots clés source de trafic SEO pour un nouveau contenu…

Mais alors dans quel cas dois-je surveiller ce Crawl budget ?

Il vous faut vous poser les questions suivantes :

  • Est-ce que mon site compte une grosse volumétrie de pages (plusieurs centaines) ?
  • Est-ce que j’ajoute tous les jours de nouveaux contenus ?
  • Est-ce que dans mon business model, j’ai besoin que mes pages soient crawlées en moins de 48 heures ?

Si vous ne répondez pas positivement à deux de ces questions, l’optimisation du crawl budget sera une perte de temps totale pour vous !

Comment connaître mon crawl budget ?

Avant de prendre donc la décision de m’occuper ou non du crawl budget, il me faut donc mesurer l’état de santé de mon site à ce niveau, pour cela il vous faudra donc vous
connecter à la search console de Google pour y arriver, aller ensuite dans Crawl, puis Crawl Stats :

illustration optmizeme

On voit ici qu’en moyenne dans cet exemple 94 pages sont indexées pour ce site, OK c’est noté, mais est-ce beaucoup ?
Il vous faut donc voir quelle est d’une part la quantité de pages indexées dans Index Google > Etat de l’indexation

illustration optimizme 2

Et savoir combien de page je propose réellement, ici pour ce site exemple il y en a réellement 29...

Qu’est-ce que cela veut donc dire ? Que pour cet exemple que ce site est indexé 3 fois par jour ! C’est plutôt excellent, c’est qui me diriez vous ? C’est le site Mazen-app.com tout simplement dans sa version de juin 2017...

Ici vous comprendrez qu’être indexé plus souvent n’apportera rien. Vous avez un excellent résultat c’est à dire au moins 50% à 30% de votre site indexé par jour, ne cherchez pas dans ce levier pour améliorer quoique ce soit...

Mon conseil donc : voyez plus le Crawl Budget comme un gros thermomètre...

Comment améliorer mon crawl budget ?

Avant de parler technique, redisons les choses simplement : « Content is king » si vous avez de bons contenus, avec un champ lexical adapté, construits en langage naturel, et surtout des contenus qui ne sont pas dupliqués, vous n’aurez pas trop de soucis à vous en sortir...
N’oubliez pas que le SEO n’est pas affaire que de technique pure.


Les actions pour booster votre crawl budget sont simples à réaliser, mais potentiellement fastidieuses :

  1. Supprimer les Erreur 404 : privilégiez la correction avec l’url canonique des pages comme destination, si vous désirez faire une redirection 301, faite là bien en direction du contenu se rapprochant le plus de cette page disparue. Si ce contenu et sa thématique ont disparu du scope de votre site, provoquez une erreur 410 qui va indiquer à Google que vous avez supprimé volontairement cette page, il la supprimera automatiquement de son index à sa prochaine visite.
     
  2. Repérer les pages vides (soft 404) : pages de remerciement de formulaires accessibles, pages en construction, pages avec une phrase de texte, tout ceci ne doit pas être desservi à Google, donc utiliser la méta no-index, ou alors faites enfin quelque chose avec ces url en optimisant éditorialement ces pages...
     
  3. Supprimer les boucles de Redirections 301 : c’est la plaie, cela use les spiders si je puis dire, vous les faites tourner en rond et ils n’aiment pas...
     
  4. Utiliser le robots.txt de manière efficace : vous avez repéré un type de page contenu dans un folder spécifique ou possédant un paramètre d’url commun, c’est le moment de le mettre en disallow dans votre robots.txt
     
  5. Optimiser ses sitemap XML : il faut délivrer dans votre sitemap que les url intéressantes, donc surveillez son contenu, pour éviter de proposer à l’indexation des url inutiles qui pourraient être considérées comme de la duplication ou du soft404
     
  6. Gérer les url dynamiques : avec la search console et le robots.txt, signalez à Google les paramètres d’url qui sont inutiles, donc à ne pas indexer, et à l’inverse dans la search console, si un contenu pertinent est associé à un paramètre, lui faire comprendre que les url avec ce paramètre sont à indexer (voir notre prochain article sur la gestion des url dynamiques)
     
  7. Exploiter les pages les plus visitées : vous avez de nouveaux contenus à faire indexer rapidement, ou tout un pan d’un nouveau cocon sémantique, n’oubliez pas de faire ici des liens internes, cela fera gagner du temps dans le processus d’indexation.
     
  8. Augmenter la vitesse de votre site : Time is money, de toute façon pas la peine de trouver des prétextes, plus votre site sera rapide, mieux ce sera, donc au boulot ! Vous savez pas comment, utiliser l’excellent outil GTMetrix pour analyser chaque template de votre site, vous trouverez tous les conseils imaginables pour gagner du temps et donc de l’argent ;-)

Spider man c’est vous !
Voilà c’est fait vous êtes prêts pour vous transformer en spider man, mettez votre tenue et sautez sur votre Search Console.

Suivez notre actualité en avant première. Pas plus d’une newsletter par mois.