Da qualche settimana Google ha annunciato la capacità da parte dello spider Googlebot di interpretare il rel=canonical anche se inserito nell'Header HTTP delle pagine con cui il server risponde.

Di seguito ecco un primo video in cui Matt Cutts trattava l'argomento rel=canonical:

 

Segnaliamo qui di seguito la procedura da seguire per risolvere quindi il potenziale problema di duplicazione di contenuto indicizzato tra html e pdf che molto spesso rischia di vanificare un attento lavoro di creazione di contenuti di qualità e di Posizionamento sui Motori di Ricerca.

Molti CMS tendono infatti a creare nativamente, per ogni pagina html del sito web, una corrispondente versione PDF.

Tale PDF potrebbe essere valutato da Google come contenuto duplicato, essendo di fatto la copia esatta dell’ HTML della pagina corrispondente.

Per questo motivo, da qualche giorno è stato introdotta da parte di Google la capacità di gestire il comando rel=canonical anche per i PDF, in particolare nella fase in cui l’utente, e quindi anche lo spider, chiede al server l’accesso/download al PDF.

Questa richiesta dell’utente, detta in gergo “Request", avviene sotto l’aspetto tecnico con questo passaggio, identificato nell’ HTTP Header del file PDF:

GET / file-pdf-generico.pdf HTTP/1.1
Host: www.xxxx.com
(...altri dettagli dell HTTP Request...)
HTTP/1.1 200 OK
Content-Type: application/pdf
Content-Length: 785710
(..termine dettagli dell HTTP Request...)

La procedura identificata come corretta e consigliata da Google in casi di questo genere, comporta l'aggiungere in questa fase di Request HTTP il dettaglio rel=canonical, nel seguente modo:

GET / file-pdf-generico.pdf HTTP/1.1
Host: www.xxxx.com
(...altri dettagli dell HTTP Request...)
HTTP/1.1 200 OK
Content-Type: application/pdf
Link: <http://www.xxxx.com/file-html-corrispondente-al-pdf.html> rel="canonical"
Content-Length: 785710
(..termine dettagli dell HTTP Request...)

Come è possibile vedere, il GET del PDF, porta anche alla scrittura del comando rel=”canonical”, che è preceduta dall’indirizzo completo delle pagina corrispondente in HTML.

Questo è sufficiente per impedirne la duplicazione agli occhi degli spider.

Ricordiamo infine che:

Questo  intervento dovrebbe essere effettuato solo sul Request di PDF che hanno una corrispondente copia HTML. Non dovrebbe invece essere effettuato su PDF che non hanno una pagina corrispondente in HTML e quindi non sono interessanti al problema di duplicazione.

Post Correlati