Google première victime du duplicate content

C'est un fait le moteur de recherche vanté de longue date pour la pertinence des résultats renvoyés par ses algorithmes est le moteur qui, actuellement, semble souffrir le plus du phénomène de duplicate content sur internet, du moins comparativement à ses deux principaux concurrents : Yahoo! et Live search.

Ce sujet revenant perpétuellement dans les principales préoccupations des référenceurs de tous poils, qui en sont le plus souvent les responsables d'ailleurs, n'est pas apparu comme certains le prétendent lors de la récente vague de pénalisation du 26 juin [fr], mais il existait bien auparavant.

Deux articles récents nous permettent d'illustrer ce problème, le premier nous donnant d'ailleurs une illustration (adaptée en français) du processus de distinction et de traitement du duplicate content par les moteurs tel qu'on le considère comme acquis.

Le traitement du duplicate content par les moteurs.

Schéma du traitement du duplicate content phase après phase

Pour des raisons bien compréhensibles nous avons salopé le beau travail de notre source et allons l'exposer ci-après.

Comme vous le constatez il est généralement admis que le traitement algorithmique se passe en quatre temps :

* Le premier est celui de la découverte des articles par les moteurs, peu importe si elle est fortuite ou si le moteur a été invité à visiter la page via un ping ;
* Le second temps fort est celui de la suppression des contenus édités sur des sites considérés comme des sites de spam ou encore des scrappers de contenu, en bref des sites blacklistés, ou qui mériteraient sans doute de l'être ;
* Le troisième est celui du calcul de la pertinence de la page, et plus largement celui du site, sont alors (selon ce processus quasi unanimement accepté) sélectionnés les sites que l'on peut suspectés être à l'origine du contenu, cet examen se fait via celui des liens externes et internes, du poids SEO du site, etc.
* Le quatrième est induit par le troisième, c'est la phase d'attribution du contenu à Un auteur.

Là où les moteurs se plantent.

Nous l'avons dit, il est quasi unanimement accepté que les moteurs fonctionnent en respectant de processus pour le traitement des cas de duplicate content. Nous devons en outre précisé que le duplicate content ne s'entend pas dans la globalité des pages mais également dans une fraction dudit contenu, fraction qui tend visiblement selon les observateurs à se réduire comme peau de chagrin.

Il semble surtout que ce processus soit essentiellement celui que l'on doit croire adopter par Google, moteur qui semble avoir le plus de mal à gérer ce problème parmi les trois principaux. A titre d'exemple signalons que nos billets ne ressortent plus dans les résultats de recherche sur leur propre titre sur ce moteur, qui paraît leur préférer les portions reprises par différents agrégateurs RSS.

Exemple avec un de nos billets récents :
* Sur Live search [fr]
* Sur Yahoo! [fr]
* Sur Google [fr]

Le problème spécifique à Google.

Google à la différence d'autres moteurs semble en effet préférer largement le contenu de ces derniers sites plutôt que celui des blogs qu'ils reprennent, cet état de chose semble découler principalement de ce qui a jusqu'à lors fait la force du moteur savoir : un grand appétit pour les sites fréquemment mis à jour et disposant d'une masse considérable de liens externes (ce qui est bien entendu le cas des sites agrégateurs, des moteurs qui laissent indexer leurs pages ou encore de wikipedia).

Or ne pas tenir compte ainsi qu'il le fait de la date de publication, ou encore de découverte des pages, est une grave erreur en terme de pertinence utilisateur, en effet comment comprendre que bien que prévenu par ping (cas des blogs) il envisage qu'un billet publié une demi heure après sur un site qu'il visite fréquemment soit le contenu original ?

Ce problème, vous vous en doutez, est bien connu de Google qui, selon certains, a tenté d'y apporter une réponse via la pénalité du 26 juin, et s'il est vrai que bon nombre de sites internet qui créent leur contenu depuis les fils RSS syndiqués semblent en avoir souffert nous sommes bien loin d'une résolution du problème puisqu'ils ont été remplacés par d'autres techniquement plus pointus.

Vanessa Fox ex employée de Google (elle y avait fondé Google Webmaster Central) y va d'ailleurs d'un essai de solution en forme de rustine pour les webmasters dans un billet publié dans son blog au mois de mai 2008.

Elle conseille de ne diffuser pour la syndication que du contenu différent de celui proposé pour le blog, d'exiger un lien direct, de placer dans le contenu syndiqué des liens directs, etc.

Làs ces rustines ne servent à rien, bien entendu.

Sources :
How search engine determines duplicate content [en]
Ranking As The Original Source For Content You Syndicate [en]
Remerciements à Papillon, son annuaire [fr]
Sur le sujet : Google victime de ses propres filtres [fr]

Derniers articles de cette rubrique:

http://www.zorgloob.com TOMHTML a écrit le 16-07-2008 à 18-26 :
ça ne sert absolument à rien en effet, malheureusement.
C'est marrant que tu parles de ça car pas plus tard que ce week-end, j'ai cliqué sur le lien "Dissatisfied? Help us improve" en bas d'une SERP, exactement pour ce même sujet : ces saletés d'agrégateurs RSS.

Khaled a écrit le 29-07-2008 à 11-04 :
Ne peut-on pas appeler ça "content squatting" ?

Votre nom/pseudo (obligatoire, publié) :

Votre email (obligatoire, non publié) :

Votre site/blog (facultatif, publié) :

Nom du site/blog (facultatif, publié) :

Votre message (obligatoire, publié) :
Veuillez recopier le code de vérification ci-contre :