Rel Canonical per File PDF

Da qualche settimana Google ha annunciato la capacità da parte dello spider Googlebot di interpretare il rel=canonical anche se inserito nell'Header HTTP delle pagine con cui il server risponde.

Di seguito ecco un primo video in cui Matt Cutts trattava l'argomento rel=canonical:

Segnaliamo qui di seguito la procedura da seguire per risolvere quindi il potenziale problema di duplicazione di contenuto indicizzato tra html e pdf che molto spesso rischia di vanificare un attento lavoro di creazione di contenuti di qualità e di Posizionamento sui Motori di Ricerca.

Molti CMS tendono infatti a creare nativamente, per ogni pagina html del sito web, una corrispondente versione PDF.

Tale PDF potrebbe essere valutato da Google come contenuto duplicato, essendo di fatto la copia esatta dell’ HTML della pagina corrispondente.

Per questo motivo, da qualche giorno è stato introdotta da parte di Google la capacità di gestire il comando rel=canonical anche per i PDF, in particolare nella fase in cui l’utente, e quindi anche lo spider, chiede al server l’accesso/download al PDF.

Questa richiesta dell’utente, detta in gergo “Request", avviene sotto l’aspetto tecnico con questo passaggio, identificato nell’ HTTP Header del file PDF:

GET / file-pdf-generico.pdf HTTP/1.1

Host: www.xxxx.com

(...altri dettagli dell HTTP Request...)

HTTP/1.1 200 OK

Content-Type: application/pdf

Content-Length: 785710

(..termine dettagli dell HTTP Request...)

La procedura identificata come corretta e consigliata da Google in casi di questo genere, comporta l'aggiungere in questa fase di Request HTTP il dettaglio rel=canonical, nel seguente modo:

GET / file-pdf-generico.pdf HTTP/1.1

Host: www.xxxx.com

(...altri dettagli dell HTTP Request...)

HTTP/1.1 200 OK

Content-Type: application/pdf

Link: <http://www.xxxx.com/file-html-corrispondente-al-pdf.html> rel="canonical"

Content-Length: 785710

(..termine dettagli dell HTTP Request...)

Come è possibile vedere, il GET del PDF, porta anche alla scrittura del comando rel=”canonical”, che è preceduta dall’indirizzo completo delle pagina corrispondente in HTML.

Questo è sufficiente per impedirne la duplicazione agli occhi degli spider.

Ricordiamo infine che:

Questo intervento dovrebbe essere effettuato solo sul Request di PDF che hanno una corrispondente copia HTML. Non dovrebbe invece essere effettuato su PDF che non hanno una pagina corrispondente in HTML e quindi non sono interessanti al problema di duplicazione.

Rel Canonical per File PDF

Iniziamo un progetto insieme?

Ultimi Pubblicati

Link building B2B nel 2026: cosa funziona ancora con AI Overview e Perplexity

First-party data e Smart CRM HubSpot: la SEO B2B nell'era cookieless del 2026

HubSpot Hacks 2026: le ottimizzazioni che stanno cambiando davvero il modo di usare CRM, AI e automazioni

Il costo di un CRM disorganizzato: il rischio che molte aziende scoprono troppo tardi

Search Console mostra le performance in AI Overview e AI Mode: cosa cambia per la misurazione GEO

Digital marketing optimization: perché ottimizzare non significa solo migliorare le campagne