venerdì 29 agosto 2008

Google Sitelinks: cosa sono, come ottenerli

Da tempo si parla di sitelinks, ossia quei link aggiuntivi che Google posiziona sotto un risultato rilevante della ricerca. Tutti chiedono, tutti vogliono sapere cosa sono i sitelinks. Eppure nessuno è in grado di fornire informazioni precise. Un buono spunto lo abbiamo ricevuto da Simone Carletti ed il suo articolo sui sitelinks. Ma è sufficiente? La risposta è, ovviamente, no. Ancora la ricerca e l'analisi degli algoritmi Google è in alto mare, eppure tutti cercano il più possibile di carpirne i segreti.
Come ripeto sempre, le soluzioni le dobbiamo ricercare sempre e solo da Google stesso, e non da SEO o presunti tali. Ecco perciò una serie di informazioni precise sui Google sitelinks.

COSA SONO E DOVE APPAIONO

Fin qui niente di nuovo. I Google sitelinks sono dei piccoli link che appaiono sotto il primo risultato di Google per una determinata serie di parole chiave, e che consentono all'utente di raggiungere informazioni ricercate senza navigare nel sito stesso. Per definizione sono minimo quattro, solitamente otto nei siti che lo permettono. Nell'ottica generale, sono considerati dagli utenti di Google un simbolo di serietà del sito che stanno per visitare, e per questo sono molto ambiti dai webmaster.
Come giustamente dice Simone Carletti, i sitelinks appaiono solo ed esclusivamente sul primo risultato di Google, e non necessariamente appaiono ogni volta che lo stesso sito appare al primo posto.

COME OTTENERE I SITELINKS

Secondo il Google Webmaster Central, è tutto automatizzato. Su questo c'erano pochi dubbi d'altronde, visto che assegnare sitelinks a centinaia di migliaia di siti ogni giorno non è lavoro per esseri umani. Un tempo si riteneva che i sitelinks fossero un premio per i siti che apparivano ai primi posti e ricevevano molti click e link da altri siti.
In realtà le cose sono cambiate. C'è chi ritiene che Google assegni i sitelinks ai siti che rispondono ad un determinato marchio. Vediamo di analizzare nel dettaglio queste ipotesi.

1. Google assegna i sitelinks solo a pagine index. Questo è un dato di fatto verificabile. Non fa distinzioni sul dominio del sito (può essere di secondo, come di terzo livello, inclusi sottodomini). Non assegna i sitelinks per il semplice fatto che corrispondono ad un determinato "marchio" (anche se ciò influisce). Nè per il semplice fatto che un sito è ben organizzato e ben realizzato. Cercando infatti "buddusò" (un paese della Sardegna), e nonostante il sito sia ben realizzato e corrispondente al marchio "buddusò" (il sito comunale è infatti il sito istituzionale ufficiale della parola chiave), non gli sono stati assegnati i sitelinks.

Per verificare l'esattezza di tale affermazione possiamo anche ricercare vaticano su Google. Il sito è infatti il sito ufficiale della parola cercata, tutti si aspettano che sia il primo risultato, riceve moltissime visite: cosa c'è che non va? Il primo risultato contiene la prima pagina in italiano, ma questa non possiede il nome index.html (o .htm né .php) quindi non può ricevere sitelinks. Il secondo risultato invece è sempre il sito ufficiale (internazionale), ma essendo secondo non può avere sitelinks.

(Attenzione! I test sono effettuati su Google Italia)

2. Non è necessario che le parole chiave compaiono nel titolo, descrizione, o dominio della pagina. Lo verifichiamo ricercando federcalcio. Tuttavia posso ritenere che nel caso specifico Google usufruisca della semantica (sinonimi e uguali significati), per associare la parola federcalcio a Figc. Sembra ricorrente il fatto, invece, che alcune delle parole chiavi (o sinonimi, anche non grammaticali, ma di significato come "lega calcio" e "lega nazionale professionisti") debbano necessariamente essere presenti nel titolo e nel dominio, ad assicurare una "autorevolezza" nel settore del sito stesso per quelle parole chiave.

3. Siti dinamici, o che non presentino un'ordinata lista di link (attraverso elenco html, tabella o semplice lista), non ottengono sitelinks (vedi gmail).

4. Il concetto di marchio ricorre ancora una volta: se infatti Google ritiene che una determinata parola chiave sia ambigua per i risultati ottenuti, non visualizza i sitelinks nonostante il sito risponda ai precedenti requisiti. Es: cercando lega, Google non visualizza sitelinks al primo risultato, nonostante due dei primi tre risultati ottengano i sitelinks ricercando rispettivamente lega nord e lega calcio. Stessa cosa si verifica cercando diocesi, nonostante le singole diocesi ottengano i sitelinks se specificata la località.

5. Non influisce per l'ottenimento dei sitelinks il peso della pagina (quella della lega calcio è un'offesa all'accessibilità, prende 100kb).

6. I tipi di link visualizzati nei sitelinks sono link interni al sito (non sottodomini, che Google considera come link esterni), compresi link dinamici.

7. Strani risultati si ottengono cercando milano e comune di milano. In realtà questo fenomeno si verifica per parecchie città: scrivendo anche la parola "comune" appaiono i sitelinks. Per assemini questo non succede. Riceve i sitelinks sia scrivendo assemini, sia comune di assemini.

8. Dal sito del Comune di Assemini abbiamo anche dati interessanti. Visitando le statistiche visite, sappiamo infatti che il sito non è niente di particolarmente importante: riceve 100-200 visite giornaliere, relativamente poco. Cercando poi link:www.comune.assemini.ca.it abbiamo un'ulteriore importantissima informazione: non influisce la link popularity (o influisce poco). Sono infatti sono 18 i siti schedati da Google che linkano al sito comunale, e peraltro si tratta di pagine con basso pagerank. Addirittura scopriamo che cercando cittadella le cose si complicano! Il sito della società sportiva visualizza i sitelinks, nonostante sotto sia presente il link comunale. L'arcano è svelato facilmente comunque: il sito comunale di Cittadella infatti non ha meritato i sitelinks, e perciò non entra in competizione col sito della società sportiva.

9. Non influisce assolutamente il tipo di documento (dichiarato o meno), la "presunta" correttezza del codice, né la presenza di meta tag (molti siti che visualizzano i sitelinks ne sono privi).

UN RIASSUNTO DEI RISULTATI

In definitiva abbiamo scoperto che il metodo di assegnazione dei sitelinks è difficilmente interpretabile. Tuttavia Google non si basa sulle visite, sulla link popularity o sul peso della pagina. Influiscono invece la presenza di parole chiave in titolo e dominio (o eventuali sinonimi), la competizione tra risultati (se una parola chiave visualizza molti siti che con frasi più specifiche hanno i sitelinks, con quella parola ambigua non appaiono). La pagina deve essere la index, deve avere almeno 4 link (ma io ritengo che più sono più spingano Google a selezionare i più importanti) e deve apparire al primo posto. Ancora: non influisce il numero di parole chiave ricercate, né il modo in cui vengono gestiti i link nella pagina.

Resta da pensare che i sitelinks vengano assegnati in maniera del tutto... casuale! Tuttavia concludendo le mie ricerche sono arrivato a scoprire qualcosa di nuovo: mi sono accorto che cercando google su Google non comparivano i sitelinks. Ma come... Google risponde a tutti i requisiti precedenti e poi... è il capo! Pensando che ciò fosse dovuto alla competività delle parole ricercate, ho cercato google.it (il cui obiettivo è ovvio: il sito di Google Italia!) ottenendo i famigerati sitelinks.

Ecco il risultato inaspettato! Il PageRank! Infatti io ho affermato che il PageRank non influisce nell'assegnazione dei sitelinks. L'affermazione corretta è invece che Google assegna i sitelinks basandosi ai siti, rispondendo ai requisiti indicati precedentemente, compaiono nel primo risultato e hanno un PageRank almeno maggiore a quello dei successivi due risultati della ricerca.

Per arrivare a questa conclusione ho fatto diverse analisi con il PageRank Checker che trovate a questa pagina http://www.prchecker.info/check_page_rank.php. E' comunque possibile che questi dati siano sbagliati, per questo vi invito a verificare voi stessi quanto ho scoperto e lasciare un commento.

La mia conclusione spiegherebbe il perché cercando le parole diocesi e lega nonostante la maggior parte dei siti ottenuti possiedano sitelinks specificando meglio la parola chiave (con diocesi di milano). Infatti cercando lega almeno due dei primi 3 risultati hanno pari PageRank, stessa cosa cercando diocesi.
Sarebbe anche possibile dare una spiegazione all'improvviso aumento di siti che visualizzano i sitelinks in rete: probabilmente in precedenza la differenza di PageRank doveva essere maggiore, oppure il controllo veniva effettuato sui primi 5 o 10 risultati della ricerca.

I meta tag: description, keywords, robots

I meta tag sono dei tag (ossia delle "etichette"), che fanno parte del linguaggio HTML. In particolare prendono il nome di meta in quanto forniscono delle meta informazioni, espressione che nel linguaggio moderno ha preso il significato di informazioni utili, ma non obbligatorie.

Con i meta tag forniamo, a chi legge il codice della pagina, alcuni contenuti chiave per capire chi ha realizzato la pagina, chi possiede il copyright, la descrizione, le parole chiave e tanto altro. Attenzione. I meta tag sono molti e consentono (tra le varie cose) di aggiornare ogni tot di tempo il contenuto della pagina e di ottenere effetti particolari sulla pagina (scorrimento, sfogliamento, in generale animazioni all'apertura) ma non solo. Tuttavia essendo questo un blog dedicato al motore di ricerca Google, ci soffermeremo solo sui meta tag che possono essere utili al webmaster che pubblica il suo sito su Google e vuole ottenere una buona indicizzazione.

META TAG DESCRIPTION

Senza parafrasare, vi annuncio subito che questo è l'unico tag che interessa al crawler (programma che scansiona i siti web) GoogleBot. Tutti gli altri meta tag sono per lui superflui (eccetto uno) e li ignora completamente. Il tag meta necessita di due attributi: name e content. Nel caso specifico name="description" e content="Descrizione breve del sito".
La descrizione dev'essere abbastanza breve, massimo 15 parole, deve riportare testo già contenuto nella pagina e deve possibilmente essere efficace, se pensiamo che Google può selezionarla come snippet, ossia l'estratto del testo della pagina che viene visualizzato nei risultati della ricerca.

META TAG KEYWORDS

Analogo a description in tutto e per tutto, eccetto per il contenuto dell'attributo content che sarà costituito da parole chiave separate da virgola. Importante: questo tag è totalmente inutile per Google e per gli altri motori. Con questo intendo dire che, contrariamente a quanto affermano altre fonti del settore, il tag viene letteralmente evitato da Google. Questo perché poteva essere manipolato. Aggiungo che non è vero neanche che un suo uso errato può penalizzare il sito, infatti Google lo ignora a prescindere. La conferma è data dal Google WebMaster Central blog in inglese, che ne parla esplicitamente in un suo post tecnico. Perciò non perdete tempo.

META TAG ROBOTS

L'ultimo tag da considerare nell'ambito di Google è robots, che contiene le informazioni relative all'indicizzazione della pagina. Il mio consiglio è ancora una volta lo stesso. Non aggiungete testo a pagine che possono già risultare pesanti da caricare. Più snella è la pagina, più GoogleBot è contento. Per indicare i sistemi di indicizzazione del sito si usa un comodo file di testo, robots.txt, che verrà analizzato nel dettaglio in un'altra guida di questo blog.

Indicizzare un sito su Google

Questo è il primo post del blog. L'obiettivo di Google Webmaster Italia, blog non ufficiale degli Strumenti per webmaster di Google, non è quello di fornire all'utente informazioni pubblicitarie come la maggior parte dei blog del settore, bensì una guida accurata e dettagliatissima sul funzionamento del motore di ricerca più famoso del mondo, con tutti i metodi certificati per ottenere un buon posizionamento.

INTRODUZIONE

Google è un motore di ricerca basato sulle ODP (Open Directory Project). Sotto questo nome (www.dmoz.org) si nasconde la più grande lista di siti Internet realizzata da esseri umani, gli editor. Il fatto che delle persone "reali" si occupino di verificare ed eventualmente catalogare un sito è una garanzia per Google, che sfrutta la directory per prelevare i siti per il suo indice.
Questo non significa che le uniche fonti di Google siano le ODP. Ogni motore di ricerca possiede infatti un crawler, o spider o bot come vengono chiamati, ossia un programma automatico che "naviga" per Internet alla ricerca dei nuovi siti web, per aggiungerli al suo indice. Il crawler di Google si chiama GoogleBot.
Il nostro obiettivo non è però quello di aspettare GoogleBot senza fare nulla, ma di dare una spintarella al bot per venirci a visitare e indicizzare il sito.

GOOGLE E GLI STRUMENTI PER WEBMASTER

Se abbiamo un account Google possiamo accedere al Centro per Webmaster e agli Strumenti per Webmaster. Questo pacchetto di utility è realizzato da Google appositamente per consentire ai programmatori web di appoggiare GoogleBot nel suo estenuante lavoro di ricerca.

REALIZZAZIONE DI PAGINE WEB CONFORMI E PUBBLICAZIONE

Prima di aggiungere il nostro sito alla Bacheca degli Strumenti per webmaster, assicuriamoci di aver tenuto conto di alcune regole importanti:

- Il sito deve avere una struttura semplice e da ogni pagina deve essere possibile raggiungere le altre per mezzo di link (collegamenti ipertestuali).

- La pagina dev'essere il più possibile corretta dal punto di vista del codice HTML o XHTML. Verifica con il validatore.

- Nella pagina dev'essere contenuto il tag title con un titolo efficace.

- Nella pagina dev'essere presente il meta tag description con una descrizione breve ma esauriente e che riporti parole presenti nella pagina.

- Non devono essere presenti altri meta tag, men che meno keywords. Google lo ignora completamente (parola di John, dal blog ufficiale in inglese).

INSERIRE IL SITO NEGLI STRUMENTI PER WEBMASTER DI GOOGLE

Una volta effettuato l'accesso agli Strumenti per Webmaster, aggiungiamo il sito e verifichiamolo con un META TAG (se ne parlerà approfonditamente in altri articoli). E' semplice. Copiamo la riga di codice fornita dalla pagina di verifica e incolliamola in mezzo ai tag della home page del sito, dopodiché pubblichiamo la pagina.
Clicchiamo su Verifica negli Strumenti per WebMaster e il gioco e fatto. Google da questo momento ha ricevuto il nostro URL.

AGGIUNGI URL A GOOGLE

Utilizziamo anche questa pagina per segnalare l'indirizzo a Google. Attenzione: utilizziamo stesso titolo e descrizione della home page, per non creare conflitti nell'indice. Non ripetiamo MAI l'operazione, perché potrebbe comportare l'effetto contrario, ossia la rimozione dell'indirizzo appena aggiunto.

NON FINISCE QUI

L'indicizzazione ovviamente è un processo che richiede tempo. Diversi siti e blog del settore parlano di due/tre mesi, ma questo è un dato completamente sbagliato. Google è infatti capace di visualizzare un sito nei suoi risultati entro 24/48 ore, anche se solitamente impiega tra i 7 e i 14 giorni per inserire il sito nell'indice. Nei primi mesi l'indicizzazione può essere altalenante, con pagine che spariscono e ricompaiono nell'indice. Questo fenomeno è normale.

SITEMAP E ACCORGIMENTI IMPORTANTI

Nelle altre guide di questo blog si parlerà di indicizzazione e posizionamento avanzati. Infatti per ottimizzare l'indicizzazione, migliorare il posizionamento e velocizzarlo (nei limiti del possibile) esistono vari metodi. Molti di questi sono inventati dai SEO (Search Engine Optimizer), persone che ritengono di poter ottimizzare l'indicizzazione con trucchi strampalati.
Gli unici trucchi efficaci sono invece quelli consigliati da Google e dai suoi programmatori, che spesso i webmaster snobbano, ma che sono di grande aiuto.