lundi 23 juin 2014

Google Panda : le filtre concentré sur l'expérience utilisateur

Pour rester le premier moteur de recherche, Google a décidé de sévir face aux divers sites web aux pratiques faites de spamdexing, d'abus en tout genre ou réalisés avec du contenu de mauvaise qualité. En 2010, Google a changé sa structure d'indexation des pages web. Ce changement porte le nom de Caffeine. Il a permis à Google de référencer plus de pages web et de faire face au nombre de pages sans cesse plus important chaque jour. Un risque d'indigestion de spams a rapidement pointé son nez. C'est pourquoi Google a commencé à "nettoyer" son index.


Les origines de Google Panda

Le 24 février 2011, Panda 1.0 est déployé. Son premier nom était "Farmer" car il s'attaquait principalement aux fermes de liens. Au fil des mises à jour des sites améliorent le positionnement de leurs pages tandis que d'autres perdent des places. Le 20 mai 2014, Panda 4.0 voit le jour. Il s'agit de la vingt-huitième mise à jour.

Panda n'est pas intégré à l'algorithme de Google. Il s'agit plus d'un filtre de nettoyage au système automatique et asynchrone.

Navneet Panda et Biswanath Panda sont les ingénieurs de Google à l'origine du filtre et auteurs de publications sur les systèmes du Machine Learning. Il semblerait, d'ailleurs, qu'ils se soient inspirés de ces technologies de l'apprentissage automatique pour mettre au point le filtre qui portera leur nom.

Google Panda

Les sites sanctionnés par Panda

Les fermes de contenu


Souvenez-vous du tout premier nom du filtre : farmer. En effet, les fermes de contenu sont la première famille de sites visés par les pénalités de Panda.

Une ferme de contenu est basée sur la recherche de mots-clés et de thématiques très demandés par les internautes. Un contenu de faible qualité est créé pour des pages correctement optimisées, raison principale de leurs places dans les pages de résultats de recherche du moteur. Elles obtenaient, par conséquent, un fort trafic sur des pages avec de nombreuses publicités, source du revenu de ce type de sites.

Les agrégateurs de contenu


Ces sites pratiquent le copié-collé de contenu ou de morceaux de contenus et les place dans leur propre interface.

Les comparateurs de prix


Deux théories existent sur les comparateurs de prix. Google n'indexe pas des pages de résultats issus d'un moteur interne. Certains diront que Google Shopping fait exception en la matière. La deuxième théorie vient de l'exagération et de la suroptimisation de ces sites.

Les forums et sites de questions / réponses


Le but premier de ces sites est utile pour les internautes : il pose une question et la communauté de ce site peut y répondre. Toutefois beaucoup de questions restent sans réponse. Il en va de même pour les forums. Pour Google, ces pages sans réponse, sont inutiles. Il faut les mettre en meta "robots" noindex. Cette tâche peut devenir complexe sur un gros site. Mais est-ce juste de punir un site entier d'avoir une partie de ces pages sans intérêt parce qu'il n'a pas un système de gestion automatique des pages avec des questions sans réponse ?

Le duplicate content


Google n'apprécie pas vraiment la duplication de contenu. Aimeriez-vous avoir un livre où il est écrit plusieurs fois le même texte ? Je ne pense pas.

Lorsqu'un contenu se trouve en plusieurs exemplaires, Google a établi deux critères d'évaluation pour dire qu'un contenu est original et les autres des copies : l'âge de la page car la plus ancienne des pages a toutes les chances d'être l'original et sa popularité.

En effet une page avec des backlinks de site de qualité permettra à Google de définir une page canonique d'une page dupliquée.



Les pratiques sanctionnées par Panda

Comme nous l'avons vu précédemment notre Panda s'attaque en priorité au contenu de faible qualité. Voyons désormais les pratiques et techniques détestées par Panda car elles sont synonymes de contenu de qualité médiocre.

Le cloaking


Cette technique est fondée sur l'idée de fournir un contenu différent aux moteurs et aux internautes. Google déteste par dessus tout ce genre de fraude. Il estime que les deux partis doivent avoir accès au même contenu.

Le content spinning


Technique de réécriture où un texte est transformé de manière automatique pour en faire un autre et éviter le duplicate content.

Cette pratique n'apportant rien de nouveau à l'utilisateur il est donc préférable de l'oublier.

Pour se différencier de son concurrent, rien ne vaut un contenu original et utile. Il ne doit pas être fait pour plaire aux moteurs de recherche.

Le scraping


Cette technique appelée aussi celle du copier / coller est une des cibles du Panda. Par conséquent, elle ne doit en aucun cas être employée.

Les pages de résultats de moteur interne


Google ne veut pas indexer ces pages. Une seule solution : créer un fichier robots.txt, si ce n'est pas déjà fait, pour que les robots n'explorent pas ces pages. Elles sont créées automatiquement et sans intérêt précis pour les utilisateurs la balise meta "robots" noindex est à intégrer pour échapper aux problèmes que l'indexation de ces pages pourrait engendrer.

Les points à vérifier pour éviter Panda

Contrôler la qualité de votre contenu textuel


La première chose à faire pour ne pas avoir à subir les foudres de Panda est de voir si votre contenu est de qualité.

Si votre page n'apporte rien ce n'est pas la peine de l'indexer. Mieux vaut placer une balise meta dans la partie <head></head>.

<meta name="robots" content="noindex, follow">

Après avoir apporté les modifications nécessaires rien ne vous empêche d'enlever cette balise meta.

Faire la chasse au contenu dupliqué


Vous avez trouvé différentes pages avec un contenu très, très proche. Si tel est le cas, vous devrez agir pour que Google soit informé que vous avez choisi une page qui sera la canonique et que les autres sont à "reléguer au second rang". Si vous ne le faites pas, Google le fera.

<link rel="canonical" href="http://www.monsite.com/adresse-url-page-canonique.html" />

Après l'avoir placé, Google effectuera un transfert des backlinks considérés comme des pages dupliquées vers la page dite canonique.

Dans le cas où plusieurs de vos URL aboutissent à la même adresse, vous devez ajouter une balise link rel canonical à chacune de ces pages pour que Google comprenne que ces pages aboutissent à l'URL de la page canonique.

Cela peut se produire avec une page d'accueil :
http:///www.monsiteweb.com/
http:///www.monsiteweb.com
http:///www.monsiteweb.com/index.html

Placer des balises source et author


Ces balises vous permettront de déclarer le nom de l'auteur d'un contenu et la source de ce dernier.

<href="https://plus.google.com/u/0/+ameliefournier/posts" a rel="author">Amélie Fournier</a>

 <href="https://plus.google.com/u/0/+ameliefournier/posts" a rel="me">Amélie Fournier</a>

<meta name="syndication-source" content="http://www.monsiteweb.com/article>

<meta name="original-source" content="http://www.monsiteweb.com/article>

Ne mélangez pas le contenu éditorial et la publicité


Placez des publicités, de préférence à gauche, à droite ou dans le header pour que le contenu soit clairement séparé de la publicité.

Votre contenu textuel ressortira d'autant qu'il ne sera pas noyé dans les publicités.

Examiner de près le taux de rebond des pages


Avec Google Analytics, vous pouvez vous forger une opinion sur une page :

Cette page est-elle de qualité ou pas ?

Recoupez le résultat du taux de rebond d'une page au type de page.

En effet, la page d'un article n'aura pas le même taux que la page d'un produit sur un site e-commerce.

Le taux de rebond peut être un indice de la qualité d'une page. Grâce à Google Analytics, vous verrez le nombre de visiteurs, la durée moyenne des sessions, le nombre de pages vues comme le nombre de pages vues par session...

Si les internautes trouvent que votre contenu est de qualité, les moteurs s'y intéresseront aussi.

Si les internautes ignorent vos pages, il faut parier que les moteurs feront de même...

Pas bien le spam !


Si vous voulez tenter d'utiliser des techniques de spamdexing, créez un autre site pour éviter une éventuelle pénalité à votre propre site.

Multiplier les sources de trafic
Pour ne pas vous retrouver en pleine "Google dépendance", multipliez les sources de trafic.

Les trois types de sources de trafic sont :

  • l'accès direct lorsque, notamment, un internaute tape l'adresse URL du site dans le navigateur de son choix;

  • l'accès à votre site grâce à des liens de sites référents vers le vôtre;

  • l'accès à votre site grâce aux moteurs de recherche.

Le calcul est simple à réaliser : plus la part de votre trafic venant des moteurs est importante, plus vous êtes dépendant d'eux. Faites attention à ne pas avoir plus de 30% à 40% de votre trafic issu des moteurs de recherche.

Quel est la qualité du trafic fournis par les moteurs ?


Cherchez la qualité plutôt que la quantité.

Trop de personnes veulent à tout prix être le premier sur une requête peu demandée n'est pas intéressante.

La personnalisation des pages de résultats fait varier le positionnement.

Il est donc essentiel d'analyser les mesures d'audiences qu'un outil comme Google Analytics vous fournit.

Préférez des liens de qualité à la quantité


Même si le netlinking est plus le sujet de préoccupation de Penguin, il est important de vérifier la "propreté" de vos liens. Veiller à :

  • ne pas avoir de liens de "fermes de liens";

  • ajoutez un nofollow aux liens achetés;

  • accordez plus d'importance aux liens naturels plutôt qu'aux liens artificiels.

Retour aux fondamentaux du référencement

  • Optimisez correctement vos pages sans aller dans l'exagération.

  • Les abus ne sont bons pour personne !

  • Pensez à placer des liens sortants dans vos pages mais ne les mettez pas en nofollow. Un site sans lien sortant est suspect pour Google !

  • Ne pratiquez pas trop le crosslinking. Trop de liens internes, peut vite être pris pour de la suroptimisation.

  • Un sujet précis sera traité dans un article. Si vingt articles parlent du même sujet, cela ne sert à rien.

  • Facilitez l'utilisation des réseaux sociaux, l'ajout d'avis ou de commentaires, etc.
Pour Google, une page qui existe grâce aux divers apports des internautes sera davantage apprécié par Panda.

Conclusion

En résumé, nous pouvons dire qu'il faut absolument s'intéresser de près à Google Panda sinon les sanctions peuvent tomber facilement sans que vous ne compreniez pourquoi.

Google Panda : c'est plus fort que toi


Aucun commentaire: