Ieri Google ha annunciato l'introduzione di una nuova funzionalità per Google Webmastertools.

All'interno della sezione Salute del sito web, è infatti possibile trovare ora la voce "Stato dell'Indicizzazione". Ecco la notizia ufficiale sul Google Webmaster Central Blog.

La nuova funzionalità ha un grandissimo valore per quanto riguarda il lavoro di SEO che viene effettuato su di un sito web, e permette finalmente di avere dati relativi all'indicizzazione molto più dettagliati. Fino ad oggi infatti, l'unico strumento che veniva fornito per avere informazioni riguardanti il numero delle pagine indicizzate per un sito web, era il comando "site". Il comando, ancora oggi disponibile, è usato in questo modo:

site: nomedominio.it 

Il comando restituisce il numero delle pagine indicizzate per un dato sito web. Quello che c'è da considerare, è che Google ha sempre confermato che il comando non è affidabile al 100% e il numero restituito non è sempre corretto. E' facile comprendere il motivo di queste inesattezze: Google vuole impedire una precisa analisi della concorrenza. Il comando viene spesso utilizzato per verificare il numero di pagine web di un sito concorrente (magari mixato con il comando "intitle:") per comprendere in quali aree la competizione permette una sfida di ranking, e in quali invece il lavoro risulterebbe molto complesso.

Altra possibilità che veniva fornita, questa volta esclusivamente per i proprietari del sito web (essendo disponibile solo tramite webmastertools) era quella di avere indicazione delle pagine indicizzate, tramite la sezione Sitemap, che mostrava il gap tra pagine inviate in sitemap e pagine nell'indice Google.

Ma la funzionalità ora disponibile ha caratteristiche decisamente superiori. Ecco una schermata di esempio:

Stato Indicizzazione Google

La prima grande novità che riguarda i dati forniti, è che Google garantisce l'accuratezza di questi dati per situazioni in cui è stato inserito il tag rel=canonical. Questo significa che se il sito web aveva avuto precedenti problemi con pagine duplicate ed è stato inserito il rel=canonical, i dati qui forniti riguardano effettivamente le pagine nella versione canonica e non i duplicati (cosa che invece viene mostrata con comando "site:").

I dati sono mostrati in un grafico per l'ultimo anno.

 

Visualizzazione Avanzata dei Dati: Come Sfruttare le Informazioni

La visualizzazione avanzata mostra dati ben più interessanti e complessi, sempre sotto forma di grafico dell'ultimo anno:

Stato Indicizzazione Avanzato Google

 

La comprensione di questi dati non è immediata, ma i dati forniti sono:
  • Pagine Totali Indicizzate (quelle presenti nella visualizzazione base). Il numero esatto di pagine che Google considera come indicizzate per il sito web.
  • Pagine Sottoposte a Scansione Finora (qui c'è un clamoroso errore di traduzione di Google che scrive "Mai Sottoposte a Scansione"). Questo numero indica le pagine del sito web che sono state scansionate e quindi visitate dal Crawler Google. Di queste, alcune sono indicizzate, altre no. Questo per vari motivi, di cui poi parleremo.
  • Pagine Non Selezionate. Questo numero indica le pagine del sito web che per qualche motivo non sono state scelte da Google come candidate per essere inserite in indice. Si tratta probabilmente di pagine duplicate, di pagine redirezionate in 301, o di pagine simili che hanno la corrispondente versione canonica.
  • Pagine Bloccate da Robots. Questo numero indica le pagine del sito web che vengono bloccate manualmente tramite file robots.txt.

In questa panoramica, il dato che risulta certamente importante è quello del numero di Pagine Non Selezionate.

Per tutti i siti che ho potuto verificare, il numero di queste pagine è sempre superiore a quello delle pagine indicizzate. La cosa dovrebbe essere di per se preoccupante, ma rimane a mio parere da capire, e su questo Google dovrebbe essere chiaro, che cosa si intende per Pagine non Selezionate.

Quello che sembra accadere molto spesso, e che quindi ha una logica, è che per un aumento di pagine non selezionate c'è un calo di indicizzate, e viceversa.

Altro dato che necessita a mio parere di maggiori spiegazioni da parte di Google è quello riguardante le Pagine Sottoposte a Scasione Finora. Il numero indicato per quasi tutti i clienti che seguiamo è decisamente elevato, nel caso qui sopra citato, è 4 volte superiore al numero di pagine indicizzate.

Ma di che pagine si tratta?

E' molto probabile che il numero comprenda anche pagine di errore 404, pagine di CSS e Javascript. Come indicato anche da altre risorse autorevoli, come Search Engine Land, quello che andrebbe considerato come problematico, sarebbe la presenza di un numero di Pagine Sottoposte a Scansione Finora, decisamente inferiore a quelle che sono le dimensioni totali del sito web. Questo significherebbe un problema da parte di Google nell'accedere al sito web, e quindi un potenziale limite di indicizzazione.

Essendo stata appena introdotta la funzionalità, sono ancora molte le informazioni che necessitano di una spiegazione. Sicuramente nei prossimi giorni ci saranno aggiornamenti.

Intanto, se necessitate di consulenza per un aumento della visibilità sui motori di ricerca per il vostro sito web, non esitate a contattarmi!

Post Correlati