Misurare la GEO: KPI, attribution e tool per le risposte AI

Una delle domande che riceviamo più spesso, in Cepar, è la stessa che HubSpot ha rilevato in una survey recente: il 62% dei responsabili marketing dichiara di non riuscire a misurare il ROI dei propri investimenti in Generative Engine Optimization.

Non è un problema di volontà, è un problema di framework. La SEO classica ha trent'anni di metriche, tool e modelli di attribution; la Generative Engine Optimization ne ha forse due. In questo pillar mettiamo nero su bianco quello che si può misurare oggi in modo affidabile, quello che si può misurare in modo parziale, e quello che (per ora) sfugge a qualsiasi tentativo di tracciamento. È una guida metodologica, indipendente dal vendor, pensata per team B2B che vogliono uscire dal "facciamo GEO ma non sappiamo se funziona" e arrivare a un sistema di KPI presentabile in un comitato di direzione.

Takeaway:

I KPI di GEO si dividono in tre famiglie: vanity metrics (citation rate semplice), operational metrics (share of voice, sentiment, citation velocity, first-mention rate) e business metrics (traffico AI referral, conversioni assistite, pipeline da LLM). Confondere i tre livelli è l'errore più frequente.
L'attribution del traffico da LLM è oggi un esercizio di approssimazione: ChatGPT desktop e Perplexity passano dati di referral, ma AI Overviews di Google, ChatGPT mobile e Gemini quasi sempre no. Il dato visibile in GA4 è la punta dell'iceberg, mai il totale.
Il panorama tool del 2026 è frammentato: nessuna piattaforma copre tutto. La scelta giusta dipende dal budget, dalla fase del progetto e dalla maturità del team interno.

Tre livelli di misurazione, tre tipi di decisione

Prima dei singoli KPI, conviene fissare la cornice. Nel lavoro che facciamo con i nostri clienti B2B, distinguiamo tre livelli di metriche GEO. Sono livelli, non categorie alternative: vanno letti insieme, ma ognuno serve a un tipo diverso di decisione.

Le vanity metrics sono quelle che si vedono per prime aprendo qualsiasi tool: il citation rate grezzo, il numero di prompt in cui il brand viene menzionato, il totale di citazioni AI nell'ultimo mese. Sono utili come fotografia introduttiva, soprattutto quando si presenta la GEO a una direzione che non l'ha mai sentita nominare. Diventano pericolose quando si confondono con il valore di business: un citation rate del 30% non dice nulla se non sappiamo quali prompt, con che tono, e contro chi.

Le operational metrics sono il cuore del lavoro quotidiano. Sono i numeri su cui un team operativo costruisce decisioni settimanali: dove pubblicare il prossimo contenuto, su quale fonte fare digital PR, quale pagina ristrutturare con schema markup. Qui rientrano share of voice, sentiment, citation velocity, first-mention rate, citation by content type. Sono dati ricchi, granulari, immediatamente azionabili.

Le business metrics sono quelle che chiudono il cerchio sul fatturato: traffico AI referral, conversioni attribuite a sessioni provenienti da LLM, pipeline e revenue assistiti dal canale AI. Sono anche le più difficili da catturare, per i motivi tecnici che vedremo. La fatica vale comunque la pena: senza queste metriche, la GEO resta una conversazione tra specialisti e non un investimento difendibile davanti al CFO.

Il framework Cepar è chiaro sul punto: una dashboard GEO che mescola i tre livelli senza distinguere serve poco. Dashboard separate, con cadenze diverse di lettura (settimanale per operational, mensile per business, trimestrale per vanity), funzionano meglio.

Cosa si può davvero misurare oggi

Entriamo nel dettaglio delle metriche che oggi sono effettivamente misurabili con tool standard. La lista è più corta di quanto vorremmo, ma è onesta: meglio quattro numeri solidi che dieci stime traballanti.

Citation rate e brand mention rate

È la metrica fondante. Si misura come percentuale di prompt monitorati in cui il brand compare nella risposta AI. Esempio concreto: se monitori 50 prompt e il tuo brand viene citato in 12 risposte, il citation rate è del 24%. Si calcola separatamente per ogni motore (ChatGPT, Gemini, Perplexity, AI Overviews) perché i comportamenti divergono molto. Una nota tecnica importante: la "menzione" include sia il brand nominato in chiaro nel testo che il link a una pagina del dominio, ma sono due cose diverse. Una menzione testuale senza link costruisce comunque brand awareness; una citation con link drive anche traffico.

Benchmark di settore (osservati su decine di clienti B2B nel 2026): sotto il 5% il brand è di fatto invisibile nelle risposte AI; tra 5% e 15% c'è una presenza emergente da costruire; tra 15% e 30% si è in una posizione competitiva forte; oltre il 30% si è category leader nella visibilità AI per quel cluster di prompt.

Share of voice

È il rapporto tra le tue citazioni e quelle totali (tue + competitor) sullo stesso set di prompt. È la metrica che racconta meglio la posizione competitiva. Si lavora bene quando si imposta lo share of voice su gruppi di prompt segmentati per buyer journey: high funnel ("cos'è X"), mid funnel ("come scegliere Y"), bottom funnel ("migliori Z per settore W"). Lo share of voice nei prompt bottom funnel è quello che incide di più sulla pipeline.

Sentiment AI

Misura il tono con cui le AI parlano del brand: positivo, neutro, negativo. Quasi tutti i tool restituiscono una scala numerica (per esempio da -100 a +100). È una metrica delicata: un sentiment neutro su un brand consolidato è di fatto un segnale negativo, perché significa che la narrazione viene dominata da fonti terze generiche. Per i brand B2B il sentiment lavora a tempi lunghi (3-6 mesi per spostamenti significativi) ed è una delle aree dove la digital PR ha l'impatto maggiore.

Citation velocity

È la variazione percentuale del citation rate tra due periodi (mese su mese, trimestre su trimestre). È un leading indicator: cresce o cala settimane prima delle altre metriche, perché riflette in tempo reale come le AI stanno aggiornando la loro percezione del brand. Una citation velocity costantemente positiva (anche con valori bassi tipo +5% mese su mese) è un segnale di salute molto più affidabile di un citation rate alto ma piatto.

First-mention rate e average position

Non basta essere citati: serve esserlo in posizione visibile. Il first-mention rate misura la percentuale di risposte in cui il brand compare per primo nella lista di citazioni; l'average position misura la posizione media in risposte multi-brand. Sono particolarmente rilevanti nelle query di shortlist ("migliori X per Y"), dove la prima posizione nella risposta AI è equivalente alla prima posizione nei vecchi blue link organici.

Citation by content type

I tool migliori (Profound, Peec.ai, Otterly, HubSpot AEO) restituiscono anche la categoria di contenuto da cui le AI pescano: blog, pagina prodotto, case study, social, recensione di terze parti. È un dato sottovalutato che dice molto sulla strategia editoriale da seguire. Se il 70% delle citation del tuo settore arriva da articoli editoriali di terze parti, fare digital PR vale dieci volte più che riscrivere la home page (con o senza schema markup sulla home page stessa).

Il panorama tool 2026: chi fa cosa, e per chi

La domanda "qual è il miglior tool GEO" è la domanda sbagliata. La domanda giusta è: per la fase di maturità del nostro team e per il budget disponibile, quale combinazione di tool ci serve davvero? Diamo una mappatura sintetica del mercato a maggio 2026, divisa per fascia di prezzo e profilo di utilizzo.

Fascia entry (sotto i 60$/mese). Otterly.AI è il riferimento da $29 al mese: monitoraggio essenziale, sei motori AI coperti, buona qualità della UI, copertura prompt limitata (15-25 per i piani base). Adatto per testare la disciplina prima di committarsi. Nella stessa fascia rientra HubSpot AEO standalone a $50 al mese, che abbiamo trattato in dettaglio nel pillar dedicato ad HubSpot AEO.

Fascia mid-market (100-300$/mese). Peec.AI parte da circa $99-100 al mese e copre ChatGPT, Perplexity, Google AI Overviews via UI scraping. Differenza importante rispetto a HubSpot AEO: Peec usa scraping diretto delle interfacce, non chiamate API, e questo cambia la natura dei dati (più aderenti a quello che vede l'utente reale, meno dipendenti dalle versioni model-specifiche). Scrunch AI dai $250/mese aggiunge controlli tecnici sul sito (robots.txt, llms.txt, schema audit), utile per chi vuole un layer di infrastruttura e non solo monitoring. AthenaHQ parte da $295/mese ed è forte sulla competitor intelligence e sull'integrazione con GA4 e Search Console.

Fascia enterprise (500$/mese in su). Profound è il riferimento, da $499/mese in piano Lite con scaling a sei cifre annue per le configurazioni Fortune 500. Copertura più ampia di motori AI sul mercato, SOC 2 Type II, SSO, customer success dedicato. Evertune e BrandRank.ai giocano sullo stesso terreno enterprise con specializzazioni diverse (Evertune più orientato all'integrazione con campagne adv programmatiche; BrandRank più focalizzato sul monitoring continuo e la competitive intelligence).

Una nota trasversale: nessuno di questi tool, da solo, fa quello che serve. Il workflow Cepar standard per i clienti B2B prevede tipicamente la combinazione di un tool di tracking (mid-market o enterprise a seconda del budget), Google Search Console per il dato organico classico, GA4 con custom channel group per l'attribution del traffico AI, e un foglio di lavoro condiviso per i prompt manuali su query strategiche che nessun tool copre ancora bene.

Modelli di attribution per il traffico da LLM: dove finisce il dato pulito e inizia la stima

Qui c'è la parte più scomoda della misurazione GEO, ed è quella in cui in Cepar passiamo più tempo con i clienti durante i kickoff. Il dato di partenza onesto è questo: oggi GA4 cattura solo una frazione del traffico effettivamente generato dai motori AI.

Cosa passa bene il referrer (e quindi appare correttamente come traffico AI in GA4):

ChatGPT desktop con web search attivo, che da giugno 2025 appende utm_source=chatgpt.com ai link cliccati
Perplexity in versione web, che passa sistematicamente il referrer
Bing Copilot in versione web, in modo abbastanza affidabile

Cosa non passa il referrer (e quindi finisce miscategorizzato come "direct" o "referral generico"):

AI Overviews di Google, perché il click avviene comunque dentro la SERP di Google e viene attribuito come traffico organico classico (non è sbagliato, ma rende invisibile l'impatto specifico dell'overview)
ChatGPT mobile e in molti casi l'app desktop, dove la gestione del referrer dipende dal sistema operativo
Gemini in alcune configurazioni, soprattutto su mobile
Claude e altri LLM secondari, dove il comportamento è irregolare

Stime di mercato pubblicate nel 2026 indicano che ChatGPT genera circa il 77-87% del traffico AI referral catturabile, Perplexity intorno al 15%, Gemini sotto il 7%. Sono numeri da prendere con cautela perché variano molto per settore e per tipo di query, ma il pattern è chiaro: la gerarchia di importanza tra i motori AI cambia molto a seconda che si guardi alla visibilità (dove Perplexity è spesso al primo posto perché cita sistematicamente le fonti) o al traffico effettivo generato (dove ChatGPT domina perché ha numeri di utenti molto più alti).

In Cepar applichiamo tre passi di attribution standard. Primo: custom channel group in GA4 con regex che intercetta chatgpt.com|perplexity.ai|gemini.google.com|copilot.microsoft.com|claude.ai, separato dal traffico organic search. Secondo: tracking dei landing page per capire quali contenuti del sito ricevono effettivamente traffico da LLM, e da quale LLM. Terzo, il pezzo più delicato: branded demand lift come proxy per il traffico AI non tracciabile. Si misura la crescita delle ricerche brandizzate su Google (impressioni in GSC per query contenenti il nome del brand) e si correla temporalmente con i picchi di citation visti nei tool di tracking. Quando il citation rate sale e dopo 2-4 settimane salgono le ricerche brand su Google, ci sono buone probabilità che il primo abbia causato il secondo. Non è una prova matematica, è un correlazione robusta: nei progetti che seguiamo da più di sei mesi il pattern è consistente.

Quello che non si può ancora misurare bene (e perché è importante saperlo)

Onestà intellettuale, perché è quello che il cliente B2B serio apprezza più di qualsiasi numero. Ci sono cose che oggi non si misurano in modo affidabile, e fingere di farlo è il modo migliore per perdere credibilità nei prossimi 12 mesi.

Lo "shortlist effect". Quando ChatGPT include il tuo brand in una risposta a "migliori CRM per PMI italiane", l'utente non clicca necessariamente sul link. Va a cercarti su Google, magari due giorni dopo. Quella conversione finale apparirà come "branded organic search", non come "AI referral". Il valore della citazione AI rimane invisibile alla maggior parte dei dashboard. Esistono solo proxy (branded demand lift, sentiment di engagement quando il brand viene cercato), non misurazioni dirette.

Il sentiment cross-platform reale. I tool restituiscono un punteggio di sentiment ma è quasi sempre calcolato su un set limitato di prompt monitorati. Il sentiment "vero" del brand nell'ecosistema AI, considerando tutte le conversazioni globali che non monitoriamo direttamente, è inaccessibile per definizione.

Le conversazioni private. ChatGPT in versione browser e Claude vengono usati anche per ricerche di business decision making in modalità conversazionale lunga, dove il singolo prompt che noi monitoriamo è solo uno dei dieci di una sessione. Quello che succede negli altri nove è black box totale.

L'attribuzione cross-device. Un decisore B2B vede il tuo brand in ChatGPT sul laptop il martedì, ci pensa, ti cerca su Google dal mobile il giovedì, compila un form sul desktop il venerdì successivo. GA4 vede tre sessioni diverse, e nessuna è etichettata "AI".

Conoscere questi limiti non è un alibi per non misurare. È la premessa per costruire una misurazione cauta, che dichiara cosa cattura e cosa stima, e che non sopravvaluta la propria precisione. Nei contesti B2B con cicli di vendita lunghi, una stima onesta è infinitamente più utile di un numero falso preciso.

Un framework di KPI utilizzabile da domani

Sintetizziamo in una struttura che si può portare al primo comitato marketing senza imbarazzi. Sei KPI organizzati in tre livelli, con cadenze di lettura differenziate.

Livello vanity (lettura mensile o trimestrale, per la direzione):

Citation rate complessivo, per motore (ChatGPT, Gemini, Perplexity, AI Overviews)
Share of voice vs i 3 competitor principali

Livello operativo (lettura settimanale, per il team marketing): 3. Sentiment score per motore, con segnalazione delle variazioni superiori a 10 punti 4. Citation by content type, con focus sui content type che generano più citation nel proprio settore 5. First-mention rate sui prompt bottom-funnel (i prompt che valgono di più commercialmente)

Livello business (lettura mensile, per il management e la pipeline review): 6. AI referral traffic + branded demand lift, presentati insieme come proxy del valore di business generato dal canale AI

Sei numeri, tre livelli, tre cadenze. Non è una rivoluzione, è disciplina. Ed è quello che separa chi misura la GEO sul serio da chi la usa come buzzword in una slide trimestrale.

Perché serve un metodo, non un tool

Il rischio più frequente, quando un'azienda B2B inizia a guardare alla misurazione GEO, è scegliere prima il tool e poi il metodo. È l'ordine sbagliato. Lo abbiamo visto succedere in più di un'occasione: arriva il responsabile marketing entusiasta, compra Profound a $499 al mese, dopo tre mesi nessuno sa più cosa farsene dei dati e la sottoscrizione viene cancellata.

L'ordine corretto è l'inverso. Prima si decide cosa si vuole misurare e perché (quale decisione di business deve guidare quel numero). Poi si sceglie il KPI giusto per quella decisione. Solo a quel punto si valuta quale tool è il più adatto a calcolare quel KPI nel modo più affidabile e con il budget disponibile. In Cepar lavoriamo proprio su questa sequenza nelle nostre competenze di agenzia, perché restituisce dashboard che il cliente usa davvero invece di abbandonare dopo il primo trimestre.

La GEO sta diventando misurabile. Non perfettamente, non ovunque, non in modo paragonabile alla SEO classica. Ma misurabile abbastanza da poter difendere un investimento, da poter pianificare un calendario editoriale informato, da poter spostare risorse dalle attività che non funzionano a quelle che funzionano. Per chi gestisce marketing B2B, è il momento di costruire un'infrastruttura di misurazione integrata SEO+GEO prima che diventi un prerequisito di tavolo. Tra dodici mesi non basterà più dire "stiamo facendo GEO": il CFO chiederà i numeri, e quei numeri vanno costruiti adesso.

FAQ

Quanto costa attivare un sistema completo di misurazione GEO?
Per una PMI B2B italiana il setup tipico si colloca in una di queste tre fasce. Entry (fino a 1000 euro/anno di tool): combinazione di Otterly o HubSpot AEO standalone più GA4 ben configurato e foglio di lavoro condiviso per il monitoraggio manuale; adatto per validare la disciplina. Mid-market (3000-6000 euro/anno di tool): Peec o AthenaHQ più HubSpot AEO se si ha Marketing Hub Pro; copertura più seria, dashboard operative. Enterprise (15.000-50.000 euro/anno di tool): Profound o Evertune più tool complementari; per aziende con budget marketing strutturato e team dedicato. A questi costi va sommato il lavoro di setup metodologico e di reporting, che è dove sta la differenza vera tra una dashboard utile e un costo fisso che nessuno guarda.

I tool GEO sostituiscono Google Search Console?
No, e questa è una distinzione importante. GSC resta la fonte primaria per il traffico organico classico, le impression e le query brand. I tool GEO coprono uno spazio diverso (le risposte AI generative) che GSC non vede. La nostra esperienza è che i due dati vanno letti insieme, perché molte dinamiche di GEO si manifestano prima in GSC (ad esempio un calo di CTR su query informative dove è apparso un AI Overview) e poi nei tool GEO. Chi rinuncia a uno dei due ha solo metà dell'immagine.