Le Monde de Fanny

Ou mon univers et le monde du point de vue de ma lorgnette...

Crawler Google News…

Ce post a été motivé par un tweet de Julien Apack (que je ne connais pas du tout mais qui de fil en aiguille est remonté dans mon flux Twitter).

tweet_crawl_ggnews

Cela m’a rappelé que oui, crawler Google News n’est pas une chose si complexe que cela si vous savez coder un minimum (en langage basique de surplus) et si vous jouez avec les différentes documentations/références de Google que vous trouverez là https://developers.google.com/web-search/docs/ et là https://developers.google.com/web-search/docs/reference.

Après tout est question de jugeote, d’investissement de temps (en fonction de votre niveau de code et de votre rapidité de compréhension + un petit temps aléatoire dû aux potentiels imprévus de parcours), mais le tour est joué assez rapidement : moins d’une journée en s’y mettant bien.

Reste à savoir ce que vous voulez faire de ces données.

Personnellement j’y vois 3 points principaux, et c’est là où justement je diverge avec Julien Apack.
Google News est un gros apporteur de trafic, nous le savons, à condition (et c’est là tout le jeu) d’être très bien placé. C’est à dire sur la Home ou à la limite au sein du Top 3 d’un cluster* très « chaud ». Mais c’est réellement la Home et ses sous-home thématiques qui sont apporteuses de trafic pour les sites repris.

L’internaute lambda n’allant pas cliquer sur 4 pages d’arborescence sur le sujet d’actualité de la journée pour vous trouver, car il aura alors déjà ouvertement compris le sujet en jeu dans les détails, en ayant eu les différentes photos, rumeurs et aberrations.

Le but est donc vraiment d’être dans le top 3.
Car en étant dans le top 3, vous êtes repris en tant qu’article lié au sujet au sein de la Home principale de Google News et donc bénéficiez d’une visibilité accrue.

L’autre point à mesurer en plus de la position des articles est à qui ils appartiennent : est-ce à vous ou à votre concurrent et si oui lequel ? Ainsi vous aurez un classement de performance de vos concurrents.
Et vous pourrez aussi vous comparer à eux.

Le dernier point à étudier est le nombre d’articles présents au sein d’un cluster à un instant T. Si entre cet instant et un instant T+1 il y a de plus en plus d’articles, alors le cluster est actif. Sinon, il est en train de mourir. Si le nombre d’articles entre T et T+1 a été multiplié par 2 : ce cluster est très très actif et à votre place je vérifierai que votre équipe éditoriale est un peu sur le coup.

A noter et à ne pas oublier : la structure de la Home de Google News évolue régulièrement ainsi que l’algorithme pour y être placé. Il est donc un peu délicat d’y avoir un graphique sur 2 ans avec une granularité au mois.

Donc pour résumer :

  • la pondération par position est l’essence même de ce type de travail : c’est d’ailleurs là que ce situe toute l’intelligence.
  • la granularité tant en terme de temps que des clusters est primordiale.

 

*Cluster : ensemble d’articles traitant d’un même sujet. Ces clusters sont créés à la volée en fonction de l’actualité du jour et au fur et à mesure de la journée.