Come ti smonto Google: una piccola scoperta SEO

by Enrico Altavilla on 9 febbraio 2010

Qual è la genesi di una “scoperta”? In ambito SEO, spesso si progetta un test allo scopo di verificare empiricamente un’ipotesi specifica. Ma come si arriva a formulare questa domanda? A volte, alla base di tutto c’è un’osservazione casuale che scatena curiosità e desiderio di approfondire. È quanto ci capita un paio di mesi fa, quando notiamo una stranezza nei dati di Google Webmaster Tools. Questa semplice osservazione farà scaturire un’intuizione che riusciremo a verificare usando un po’ di logica e un pizzico di creatività. In questo articolo ripercorriamo pubblicamente i nostri passi, sperando che conoscere il processo seguito possa risultare interessante quanto la conclusione alla quale siamo pervenuti.

Clicca qui per leggere subito la conclusione

Tutto comincia quando ci accorgiamo che il report GWT “Link che rimandano al tuo sito” visualizza in modo incompleto l’anchor text di uno dei back link di SearchBrain.

Nella parte visualizzata manca infatti l’ultima parola del motto di SearchBrain, “Marketing with Search in Mind”, presente nell’attributo ALT di due link grafici sui siti personali di MaurizioGiacomo.

Ogni volta che ci si imbatte in qualche informazione “curiosa” o “anomala” mostrata da un motore di ricerca è sempre buona norma chiedersi a quale attività del motore il fenomeno vada attribuito. A volte si tratta di un fenomeno che deriva da un algoritmo usato nel “cuore” delle fasi di crawling, indicizzazione, filtraggio o ranking, e altre volte si tratta di un fenomeno prodotto a posteriori dall’interfaccia utente. Questi ultimi possono essere considerati degli effetti di “post-produzione”.

Nel caso dell’anchor text troncato, è essenziale capire in quale fase sia avvenuto il troncamento: se il motore avesse indicizzato per intero tutti i testi dell’ancora, pur non mostrandoli interamente sul pannello di GWT, si tratterebbe di un troncamento effettuato solo in fase di visualizzazione; viceversa, se riuscissimo ad appurare che la parte di testo troncata non è proprio stata archiviata da Google, saremmo di fronte ad un troncamento effettuato sin dalla fase di indicizzazione. E se esistessero limiti precisi all’indicizzazione dei testi associati ai link, questa informazione rivestirebbe un’ovvia utilità per chiunque produca testi per il web.

Pronti a scommettere che Google abbia troncato il testo del link in fase di indicizzazione, facciamo diverse congetture su quale possa essere il limite massimo utilizzato da Google. Scartando a priori l’ipotesi che possa trattarsi di un numero di sillabe (o di pixel, o di molecole…), le ipotesi più realistiche ci appaiono due:

  1. Troncamento dopo N caratteri;
  2. Troncamento dopo N parole.

Gli obiettivi sono dunque in realtà due: confermare la nostra congettura che il troncamento del testo avvenga effettivamente prima dell’archiviazione, e determinare il limite massimo di elementi (caratteri o parole) oltre il quale viene applicato il “taglio”.

Per verificare la quantità di testo effettivamente archiviata da Google, decidiamo di utilizzare l’operatore di ricerca inanchor associato all’operatore per la definizione di frasi, ovvero le virgolette (“). Il primo restringe la ricerca ai testi delle ancore dei link ed il secondo ci permette di specificare che le parole cercate devono appartenere alla stessa frase cioè, in questo caso, al medesimo link. Facciamo due query su Google e ne confrontiamo i risultati:

  1. inanchor:”proud member of searchbrain marketing with search in”
  2. inanchor:”proud member of searchbrain marketing with search in mind”

La prima query restituisce la home page di SearchBrain come unica pagina avente la stringa esatta cercata nell’ancora dei back link; la seconda restituisce zero risultati: ne concludiamo che il troncamento avviene in fase di indicizzazione (diversamente, le due query avrebbero restituito lo stesso set di risultati).

Appurato ciò, passiamo alla seconda domanda: qual è il limite utilizzato da Google? Poiché la porzione di testo del link indicizzata da Google è lunga otto parole e 54 caratteri (spazi inclusi), formuliamo due ipotesi coerenti con tale evidenza:

  1. Il testo dell’ancora viene troncato dopo l’ottava parola;
  2. Il testo dell’ancora viene troncato dopo circa 55 caratteri.

Curiosi di sapere se altri si siano posti la stessa domanda prima di noi, facciamo una ricerca su Google e troviamo un articolo su un blog SEO nel quale si ipotizza che il limite sia appunto di “55 caratteri (8-10 parole circa)”. Decidiamo di verificare.

A questo scopo, anziché predisporre un test producendo una pagina contenente link con ancore di lunghezza diversa e attendere che venga indicizzata, decidiamo di usare la ricerca web di Google, confidando nell’alta probabilità che nel suo indice esistano già link con le caratteristiche cercate (e nella nostra capacità di trovarli).

Dato che per invalidare l’ipotesi 1, che ci appare la più plausibile, dovremmo trovare una pagina avente almeno un back link indicizzato la cui ancora sia composta da più di otto parole, proviamo a pensare a una query di almeno nove parole abbastanza brevi, di lunghezza complessivamente inferiore a 55 caratteri. Ci viene in mente la serie di proposizioni semplici “di a da in con su per tra fra”. Esattamente nove parole, per un totale di 29 caratteri spazi inclusi: perfetto! Speriamo solo che qualcuno, da qualche parte sul web, abbia creato un link con un’ancora del genere, e che quel link sia stato indicizzato da Google. Siamo fortunati: la query inanchor:”di a da in con su per tra” (costituita da otto parole, omettendo l’ultima preposizione) restituisce alcune migliaia di risultati.

Aggiungendo fra virgolette anche la nona preposizione, che pure appare nel testo dei link, Google restituisce invece zero risultati: inanchor:”di a da in con su per tra fra”

Questa evidenza è coerente con l’ipotesi 1 (troncamento dopo l’ottava parola); tuttavia, non permette di escludere completamente l’ipotesi 2 (troncamento al cinquantacinquesimo carattere). Infatti i due limiti non sono di per sé mutuamente esclusivi, e potrebbero anche coesistere: se ciò fosse vero, in presenza di un link con un’ancora composta da parole abbastanza lunghe, Google potrebbe decidere di applicare il secondo limite, indicizzando solo i primi 55 caratteri del testo e troncando la frase prima dell’ottava parola.

Per invalidare l’ipotesi 2, tenendo ferma l’ipotesi 1, è dunque necessario trovare una pagina avente almeno un back link indicizzato con un’ancora più lunga di 55 caratteri. Decidiamo che ci serve una frase composta da parole di una decina di caratteri ciascuna, o una parola della stessa lunghezza e con una buona probabilità di apparire ripetuta molte volte all’interno del testo di un link. Il concetto stesso di ripetizione ci richiama immediatamente alla mente il meme “Developers”. Anche stavolta abbiamo fortuna: la query inanchor:”developers developers developers developers developers developers developers developers” (costituita dalla parola “developers” ripetuta otto volte, per un totale di 87 caratteri spazi inclusi) restituisce cinque risultati, invalidando l’ipotesi 2.

Anche in questo caso, aggiungendo il nono termine i risultati vengono azzerati, coerentemente con l’ipotesi 1: inanchor:”developers developers developers developers developers developers developers developers developers”

Pare proprio che il limite delle otto parole sia confermato, tuttavia ci sorgono un paio di dubbi che è necessario dirimere.

Il primo dubbio riguarda le parole che solitamente i motori di ricerca considerano stopword: ci chiediamo se vengano trattate in modo speciale dall’algoritmo che si occupa del troncamento dei testi delle ancore. A volte, in fase di indicizzazione dei testi le cosiddette “stopword” vengono ignorate, ma questo non sembra essere il caso dell’indicizzazione dei testi delle ancore, in quanto la sequenza di preposizioni “di a da in con su per tra fra” include la parola “a”, storicamente considerata una stopword da Google, sia per la lingua italiana sia per la lingua inglese. Pertanto abbiamo conferma del fatto che, di ciascun link, vengono indicizzare al massimo le prime otto parole, a prescindere da quali esse siano.

Il secondo dubbio è invece quante sequenze di otto parole vengano effettivamente indicizzate per ciascun link. Siamo certi che vengano indicizzate solo le prime otto parole del testo di un’ancora e non, per esempio, tutte le sequenze di otto parole contigue contenute in una frase più lunga? Si tratta di un dubbio legittimo, poiché in information retrieval esistono diversi algoritmi di analisi e trattamento dei testi che si avvantaggiano di una loro scomposizione in sequenze di N parole contigue, detti n-grammi (qualche anno fa Google rese persino pubblici gli n-grammi che aveva estratto dalle pagine web).

Anche il secondo dubbio viene però facilmente dipanato: è infatti sufficiente riprendere l’esempio delle preposizioni semplici italiane, che sono nove, e cercare con l’operatore inanchor il secondo gruppo di otto preposizioni, da “a” a “fra”. Gli zero risultati restituiti da Google ci confermano che a venire indicizzate sono esclusivamente le prime otto parole di un linkinanchor:”a da in con su per tra fra”

L’ultima conferma la otteniamo casualmente, cercando su Google il dominio di terzo livello tools.searchbrain.it, volutamente in disallow nel momento in cui scriviamo, e notando che il titolo che Google attribuisce alla pagina, non potendo accedere al tag title, è il testo di un backlink esterno troncato dopo le prime otto parole.

A chi giova sapere che Google non indicizza i testi dei link oltre l’ottava parola? A tutti coloro che devono scrivere testi per il web, in particolare in fase di stesura di un titolo o intestazione destinata a diventare l’ancora di un link. Il primo esempio che ci viene in mente è quello dei titoli dei post di blog e forum, ma gli ambiti di applicazione sono molteplici e non limitati all’esempio fatto.

{ 5 trackbacks }

uberVU
9 febbraio 2010 alle 10:18
Testo dei link di 8 parole - Web Marketing Forum
11 febbraio 2010 alle 10:17
Lunghezza massima dei link: 8 parole per Google | regole-seo
15 febbraio 2010 alle 01:14
COME SCRIVERE UN POST PERFETTO parte cinque - LINK | Docnrolla
9 dicembre 2010 alle 09:34
Continuare a smontare Google: un’altra scoperta SEO - LowLevel’s blog
18 ottobre 2011 alle 11:20

{ 26 comments… read them below or add one }

Andrea Moro 9 febbraio 2010 alle 10:14

Complimenti, bel pezzo. Conferma un paio di ipotesi che avevo sulle stop word.

Lisa Guerrini 9 febbraio 2010 alle 11:20

Perfetto! Molto utile….grazie ne farò buon uso.

Alessio Valsecchi 9 febbraio 2010 alle 11:33

Grazie per la condivisione, l’informazione è certamente utile. 🙂

Nicola Pressi 9 febbraio 2010 alle 12:05

È un caso che il titolo di questo post sia composto esattamente da 8 parole? 😉
Complimenti!

Giacomo Pelagatti 9 febbraio 2010 alle 12:17

Ovviamente no. 🙂

FP 9 febbraio 2010 alle 13:17

nel caso in cui l’anchor text è la URL (http://www.pippo.com/1/2/3/4/5/6/) rimane sempre valido il limite di 8 parole max e il “dominio” compreso di protocollo, www (3rd), e hostname (2nd + tld) viene spezzato.

Quindi l’anchor text visto da G. in questo caso è => [http www pippo com 1 2 3 4]

just 4 fun 🙂

senza www si guadagna 1 parola 🙂

Clickz

Andrea Moro 9 febbraio 2010 alle 13:28

Si però poi dopo si iniziano ad avere problemi di canonicalizzazione se non si pianifica per bene l’attività.

Enrico Gualandi 9 febbraio 2010 alle 13:55

Grazie veramente per la condivisione di questa vostra scoperta!

Giorgio Montaldo 9 febbraio 2010 alle 14:11

Davvero un ottimo lavoro di reverse engineering! Complimenti per l’intuizione!

Sergio 9 febbraio 2010 alle 16:19

Ottimo articolo!

Giusto per capire, google come separatore di parole oltre allo spazio prende meno, underscore, la punteggiatura e gli slash giusto?

Con le @ come si comporta?

Giacomo Pelagatti 9 febbraio 2010 alle 16:32

Ciao Sergio, il carattere underscore detto anche trattino basso (_) non è considerato un separatore.

Gae79 10 febbraio 2010 alle 12:09

Complimenti, davvero molto utile

Giorgio Taverniti 10 febbraio 2010 alle 12:10

Interessante quanto avete fatto, ho condiviso subito il vostro test nella nostra sezione Laboratorio SEO: http://www.giorgiotave.it/forum/laboratorio-seo/134330-google-indicizza-solo-le-prime-8-parole-di-un-link.html

Ho trovato alcuni risultati strani però:

Ci sono tuttavia alcuni risultati che mi incusioriscono, come:

inanchor:”a b c d e f g h i l m n o p q” 1.380 risultati (aggiungendo o togliendo le lettere se ne possono ottenere molti di più )
inanchor:”1 2 3 4 5 6 7 8 9 10 11 12″ Risultati 1 – 2 su circa 447.000.000 per inanchor:”1 2 3 4 5 6 7 8 9 10 11 12″ ma mostra solo i video di YouTube

Come mai mostra questi risultati?
Ce ne saranno altri “strani”? Continuo la ricerca

Salvino Fidacaro 10 febbraio 2010 alle 13:27

Ho effettuato delle prove utilizzando il vostro test,
sto effettuando ancora altre prove, appena finisco vi do anche i miei risultati.

Carmelo Molfetta 10 febbraio 2010 alle 13:30

Ottimo test, grazie. Vorrei fare alcune riflessioni, parto da un quesito: sarebbe ottima cosa riuscire a creare sempre titoli di 8 parole? Un titolo di un blog è anche un perciò Google lo indicizza anche se composta da più parole.
La cosa migliore da fare potrebbe essere di scrivere i titoli degli articoli dei blog mettendo subito le keywords importanti e poi le parole meno importanti.
Spero di essere stato chiaro.
(scusatemi il doppio commento ma c’era un errore nel primo)

SeoStudio 10 febbraio 2010 alle 14:47

Bellissimo e utile!
Sto facende delle verifiche sui alcuni sito, non mancherò di darvi anche i miei risultati
Luca

Giacomo Pelagatti 10 febbraio 2010 alle 15:30
Giorgio Taverniti 10 febbraio 2010 alle 16:34
Giacomo Pelagatti 10 febbraio 2010 alle 17:42

Sì, funziona solo quando gli spazi sono utilizzati nella query come separatori di caratteri. Discutendone internamente, Maurizio aveva notato che basta omettere uno spazio affinché i rimanenti non vengano più ignorati:

http://www.google.com/search?hl=it&q=%22g+i+o+rg+i+o+t+a+v+e%22

Credo che il fenomeno sia riconducibile a una normalizzazione della query, analoga a quella che Google fa per le ricerche di acronimi (anche quando la parola cercata non è in realtà un acronimo):

http://www.google.com/search?hl=it&q=%22g.i.o.r.g.i.o.t.a.v.e.%22

Giorgio Taverniti 10 febbraio 2010 alle 19:45

Ottima indicazione.

Sto Google….

Kerouac3001 24 febbraio 2010 alle 16:23

vi bastava questa serp per dimostrare la teoria 🙂

http://www.google.com/search?hl=it&q=inanchor%3A%22Member+of+SearchBrain+Marketing+with+Search+in+Mind%22&btnG=Cerca&lr=&aq=f&oq=

La vostra intuizione è stata geniale e è uno di quegli appunti da tenere a mente quando si scrive un titolo o si crea un anchor.

In questi giorni stavo cercando anch’io di smontare google, ma sto per decidere di fermarmi..vorrei una serp che limiti (o quasi) i risultati della ricerca soltanto ad un mio sito, ma senza specificare in alcun modo il sito nella query. Lo so è utopia, ma mi sarebbe davvero utile 😀

SEO Cagliari 27 febbraio 2010 alle 04:02

Che dire, complimenti per l’intuizione! Apre veramente un sacco di scenari interessanti per nuovi test.

seo cosenza 27 aprile 2010 alle 21:52

Davvero molto carino, una dimostrazione di come lavorando, esplorando e cazzeggiando…con gli operatori base di google si può imparare molto.

alfredo 13 febbraio 2011 alle 09:22

ottimo test e sopratutto grazie per averne condiviso i risultati!
alfredo

Vitolioce 18 ottobre 2011 alle 12:13

Bellissimo articolo, ottimo test, finalmente un po’ di luce in più nel mondo del SEO. Grande!

SeoSpritz.com 5 settembre 2016 alle 15:30

Ottimo, non mi e capitato quasi mai di fare anchor lunghe, tendo sempre a stare sulle max 4-5 parole, ma grazie allo studio che avete condotto, adesso so che non devo farle 😛

Leave a Comment

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Previous post:

Next post: