Per indicizzare un sito web devi accertarti innanzitutto che il tuo sito sia raggiungibile da Google: l'indicizzazione può avvenire anche in maniera automatica e senza che tu faccia alcunché. Tuttavia, per indicizzare un sito rapidamente abbiamo a disposizione Google Search Console, uno strumento attraverso cui informare Google dell'esistenza del nostro sito internet, chiederne l'indicizzazione e controllare che questa poi proceda correttamente.
Come stiamo per vedere, per inviare una richiesta di indicizzazione a Google devi creare un file sitemap, caricarlo sul server del tuo web host e comunicare, attraverso Google Search Console, l'url del file sitemap appena caricato,. In tal modo, non solo renderai nota l'esistenza del tuo sito chiedendo che venga indicizzato, ma aiuterai Google anche a comprenderne la struttura indicando le pagine web da indicizzare.
Indice
- Che significa indicizzare un sito?
- Come inoltrare una richiesta di indicizzazione a Google
- Indicizzazione e posizionamento
- Come viene indicizzato un sito?
- Google Search Console
- Come indicizzare un sito: FAQ
- Conclusioni: c'è dell'altro che posso fare?
Che significa indicizzare un sito?
L'indicizzazione è il processo che porta un motore di ricerca ad aggiungere un sito internet al proprio "archivio", così da poterlo poi mostrare agli utenti per le ricerche ad esso attinenti. Pertanto, indicizzare un sito significa sottoporlo all'attenzione dei motori di ricerca e chiederne la scansione: il motore di ricerca lo indicizzerà, ossia catalogherà le pagine web in base al loro contenuto.
Come inoltrare una richiesta di indicizzazione a Google
Per indicizzare un sito bisogna:
- creare un file sitemap;
- effettuare l'upload del file sul nostro web host;
- comunicare l'url del file sitemap attraverso Google Search Console.
Come stiamo per vedere, dobbiamo tenere presente che tale procedimento non è essenziale all'indicizzazione, dal momento che i motori di ricerca possono trovare, scansionare ed indicizzare un sito internet del tutto autonomamente, senza alcun apporto da parte nostra. Allo stesso tempo, l'indicizzazione potrebbe anche non avvenire affatto, ad esempio a causa di errori che impediscono ai motori di ricerca di trovare e scansionare il sito.
Pertanto, è buona norma dare impulso alla procedura e controllare che questa proceda senza errori: l'indicizzazione sarà più veloce e anche il posizionamento sarà migliore. Una corretta indicizzazione aiuterà Google a "capire" il contenuto di un sito: sarà dunque possibile mostrarlo ad un utente alla ricerca delle informazioni che esso contiene.
Indicizzazione e posizionamento di un sito web
L'indicizzazione di un sito non va confusa con il suo posizionamento: sono due cose diverse.
Se si vuole ottenere un buon posizionamento è essenziale che il sito venga correttamente indicizzato; tuttavia, l'ordine con cui il sito web verrà mostrato, e dunque il suo posizionamento, dipende da una serie di fattori diversi: una corretta indicizzazione è uno di questi, ma non certo l'unico. Abbiamo trattato l'argomento posizionamento nell'articolo: Seo per avvocati: come migliorare il posizionamento del mio sito internet e trovare nuovi clienti?
Come viene trovato ed indicizzato un sito internet?
Per spiegare come indicizzare un sito conviene partire da come avviene l'indicizzazione da parte dei motori di ricerca: questi si servono di software noti come spider o web crawler che scansionano senza sosta il web.
Gli spider
Il nome è piuttosto efficace nel dare un'idea di cosa fanno gli spider: si muovono sul web (rete), passando da un sito all'altro, seguendo i link che li uniscono, scoprendo nuove pagine web appena pubblicate o scansionando periodicamente quelle già note. Ecco un punto molto importante: Google trova e indicizza le pagine web seguendo i link che le collegano; questo comporta che la velocità con cui una pagina web viene indicizzata dipende dalla presenza e quantità di link che portano a quella pagina.
Link
I link possono essere di 2 tipi:
1 - Interni: internal linking
Collegano tra loro le pagine web dello stesso sito.
Un fattore che influenza positivamente tanto l'indicizzazione quanto il posizionamento è la logica osservata nello strutturare il sito internet e i suoi contenuti: questa deve portare ad avere un collegamento coerente tra le pagine, cosa che favorisce il propagarsi degli spider dall'una all'altra e "aiuta" Google ad indicizzarle correttamente.
I link interni possono avere origine:
Nel menu di navigazione
Senza dilungarci troppo, possiamo dire che i contenuti di un sito vanno organizzati secondo una gerarchia di categorie e sottocategorie: queste si rifletteranno nel menu di navigazione, che conterrà i link alle categorie, mentre da queste partiranno link verso eventuali sottocategorie e infine le singole pagine.
Si parla infatti di alberatura del sito, al cui apice abbiamo la home page e a seguire, come detto, categorie e sottocategorie.
Nelle singole pagine
Abbiamo un articolo sul nostro blog in cui parliamo di un certo argomento: sarà utile inserire un link ad un altro articolo che abbiamo pubblicato in precedenza su un argomento attinente che il lettore potrebbe trovare interessante.
In definitiva, è questo che conta: organizzare in contenuti in maniera che questi possano essere fruiti in maniera pratica ed efficace dall'utente: Google se ne accorgerà e premierà.
2 - Esterni: backlink
I backlink sono link che provengono da altri siti. Questi non solo rendono nota a Google l'esistenza di una pagina, ma attribuiscono anche una certa autorevolezza alla pagina che li riceve, che di conseguenza otterrà un miglior posizionamento. Il ragionamento è: se tanti rimandano a questa pagina, vuole dire che questa ha qualcosa di interessante e vale la pena proporla bene in vista agli utenti che effettuano una ricerca.
Ti starai chiedendo:
Se i backlink sono così utili, come faccio ad averli?
Difatti, tutti li cercano e sono molto ambiti; la risposta è però semplice: bisogna produrre contenuti che risultino utili ed interessanti per gli altri utenti di internet: questi saranno portati ad indicarli come proprie fonti nei testi che pubblicheranno a loro volta e a farvi riferimento attraverso un link.
Ricapitolando
Da quanto abbiamo detto, possiamo trarre due conclusioni:
- in assenza di link verso una pagina Google potrebbe non trovare mai e dunque non indicizzare il sito internet;
- l'indicizzazione richiede un tempo variabile.
Fatta questa introduzione, possiamo chiederci: abbiamo appena pubblicato il nostro nuovo sito o un articolo sul nostro blog: come chiedere a Google l'indicizzazione?
Google Search Console
Ma qual è lo strumento che serve per aggiungere un sito all'indice di Google?
I motori di ricerca forniscono strumenti attraverso cui chiedere l'indicizzazione di un sito e ricevere una serie di informazioni su:
- lo stato del processo di indicizzazione;
- eventuali errori;
- come gli utenti trovano le pagine (già indicizzate): per quali ricerche (queries) queste vengono mostrate all'utente e in che posizione.
Ciascun motore di ricerca ha un proprio strumento: ci sono anche Bing Webmaster Tools e Yandex.Webmaster.In questo articolo vediamo come chiedere a Google di indicizzare il nostro sito internet con Google Search Console.
Come attivare Google Search Console?
Per attivare Google Search Console basta un account Google, ma occorre poi:
- aggiungere il nostro sito;
- autenticarsi come proprietario del sito.
Aggiungere sito (proprietà)
Secondo la terminologia usata da da Google, bisogna aggiungere una proprietà; ci sono due metodi:
Autenticazione
Vi sono 5 modalità di attivazione; se però scegli la proprietà "Dominio" ti sarà possibile autenticarti solo attraverso DNS. Con "Prefisso Url" invece, sono praticabili in alternativa tutti i 5 metodi di autenticazione. Qui esponiamo il metodo prefisso url, meno ostico per un utente alle prime armi. Sono necessari due passaggi:
- scaricare un file html da Google
- caricare il file sul server.
Upload del file html
È necessaria una breve introduzione.
Il tuo sito non è altro che un insieme di file e cartelle salvate sul server del tuo host.
Il tuo host ti consente di collegarti alla cartella del server dove hai installato il tuo sito: lì potrai modificare, scaricare, cancellare i file, come fai abitualmente con il tuo computer. Per poterti collegare ti vengono fornite delle credenziali: più precisamente, un account FTP.
Se non hai queste credenziali, dovrai chiederle al tuo host, o comunque dovrà averle chi ha realizzato il tuo sito: con tutta probabilità sarà la stessa persona che lo ha pubblicato, caricandolo sull'host.
Con le credenziali FTP potrai connetterti al server dove è installato il tuo sito attraverso un client FTP: si tratta di un software che ti consente di collegarti all'host e avere accesso ai file che vi sono salvati.
Un client FTP molto diffuso è Filezilla.
Ecco come si presenta una volta avviato:
In alto trovi i campi per inserire le coordinate del tuo account FTP e connetterti al server: host - username - password.
Una volta stabilita la connessione, sulla sinistra vedrai i file e le cartelle che sono sul tuo computer; sulla destra quelle che sono sul server. Per la precisione, dovrai trovare l'esatta cartella dove risiede il tuo sito internet: spesso si tratta di /public_html; all'occorrenza, chiedi al tuo host.
Per autenticarti come proprietario del sito che vuoi monitorare tramite Google Search Console devi dunque effettuare l'upload del file html. Dovrai cercare il file che hai scaricato tra le cartelle del tuo computer visualizzate a sinistra, selezionarlo con il tasto destro e poi upload. Effettuato l'upload, vedrai il file nell'elenco di destra: sul server.
Una volta caricato il file, dovrai ultimare la procedura con due ultimi passaggi:
- digitare nel tuo browser, nella barra degli indirizzi, il percorso al file che hai appena caricato: iltuosito.com/nome-del-file.html
- cliccare su Verifica secondo le istruzioni che troverai nel tuo account di Google Search Console.
Fai attenzione: le performance del sito che hai aggiunto verranno registrate solo se manterrai il file html sul tuo server. Non rimuoverlo.
Ora: hai aggiunto una proprietà e completato l'autenticazione. Hai accesso a tutte le funzionalità di Google Search Console; per descriverle tutte non basterebbe un articolo. Qui ci limitiamo a quelle che ti consentono di chiedere a Google di indicizzare un sito web.
Come indicizzare un sito: FAQ
Come abbiamo accennato all'inizio, per indicizzare un sito devi:
- creare un file sitemap.xml
- caricare il file sitemap sul server (lo spazio web fornito dal tuo host) con un client FTP;
- effettuare login su Google Search Console
- aggiungere il file sitemap indicando il suo url.
Di seguito vediamo come fare, rispondendo alle domande frequenti sull'indicizzazione di un sito internet.
Come verificare l'indicizzazione del mio sito web?
Ma come vedere se il mio sito è stato indicizzato?Per verificare se Google ha indicizzato il nostro sito internet è possibile effettuare una ricerca e digitare: site:iltuosito.com: verranno elencate le pagine già indicizzate.
Se invece il sito non è stato ancora indicizzato e gli spider non ci hanno ancora fatto visita:
Che cos'è un file Sitemap
Il sitemap è un file xml che fornisce una mappa di un sito internet: un elenco delle url delle pagine che vogliamo siano indicizzate.
Grazie ad un file sitemap l'indicizzazione sarà più veloce perché non dovrai aspettare che siano gli spider a trovare il tuo sito: con il sitemap fornisci direttamente gli indirizzi delle pagine e chiedi che vengano indicizzate.
1 - Come creare un file sitemap
Online vi sono tanti strumenti che consentono di generare un file sitemap: dovrai inserire l'indirizzo della home page del tuo sito, questo verrà scansionato e alla fine potrai scaricare il file.
2 - Upload sul server
Attraverso un client ftp dovrai caricare il file sul server, ossia sullo spazio web fornito dal tuo host: dove è salvato il tuo sito. Potrai caricare il file nella cartella principale: in tal modo, l'url del file sitemap sarà iltuosito.com/sitemap.xml. Abbiamo visto in precedenza come fare l'upload di un file con Filezilla.
Dobbiamo ora avvertire Google che abbiamo caricato il file sitemap; così facendo, chiederemo che il sito venga indicizzato.
3 - Aggiungi sitemap
Su Google Search Console, a sinistra trovi: Sitemap:
Dovrai inserire il percorso al file sitemap: se lo hai caricato nella cartella principale del tuo server, che come visto può essere /publc_html, il percorso da inserire (come vedi nello screenshot precedente) sarà https://iltuosito.com/sitemap.xml.
Clicca INVIA e...Google saprà cosa fare.
Come chiedere l'indicizzazione di singole pagine
Quanto abbiamo visto finora è necessario quando devi indicizzare un sito appena pubblicato; l'esigenza è però la stessa se hai appena pubblicato un articolo sul tuo blog e vuoi che questo venga trovato il prima possibile. In tal caso, hai dunque una sola url da sottoporre a Google: puoi servirti del Controllo URL
In tal modo, potrai verificare se la pagina è stata già indicizzata e chiedere a Google l'indicizzazione.
Questa pagina è stata già indicizzata...
e questa ancora no.
Per chiedere a Google di indicizzare una pagina web in particolare, basta cliccare su Richiesta di indicizzazione (vedi screenshot precedente).
Quanto tempo ci vuole per indicizzare un sito su Google?
I tempi di indicizzazione di Google possono variare: dal momento in cui pubblichiamo un articolo online e ne chiediamo l'indicizzazione, l'articolo potrebbe essere restituito tra i motori di ricerca anche in tempi brevi, nell'arco di poche ore o entro qualche giorno.
Come già detto però, altra cosa è il posizionamento: secondo la nostra esperienza, una volta completata l'indicizzazione di un sito, il lavoro di ottimizzazione (SEO) volto a migliorarne il posizionamento da' i suoi frutti non prima di 3 mesi.
Ci vuole tempo, costanza e pazienza.
Come velocizzare l'indicizzazione?
Per velocizzare l'indicizzazione è consigliato creare un file sitemap, fare l'upload sul server e inserire il percorso al file attraverso Google Search Console. In tal modo forniamo una mappa del sito a Google chiedendo che venga indicizzato. Per velocizzare l'indicizzazione è possibile anche inserire con Google Search Console l'indirizzo delle singole pagine che vogliamo indicizzare, secondo la procedura che abbiamo appena visto.
Perché il mio sito non è stato indicizzato?
I motivi per cui Google potrebbe non indicizzare il tuo sito:
- Google non ha trovato il tuo sito o una o più pagine. Non hai fornito il file sitemap e il tuo sito non è stato trovato. Questo può accadere in particolare se la struttura dei link interni che collegano le pagine è poco efficace. Come abbiamo visto all'inizio, Google indicizza un sito passando da una pagina all'altra, seguendo i link tra queste; se non vi sono link che portano ad una pagina Google potrebbe non trovarla. A tal proposito, abbiamo in precedenza parlato degli spider e della alberatura di un sito.
- l'indicizzazione delle pagine è impedita da un
noindex
tag: singole pagine di un sito possono comunicare a Google l'intenzione di NON essere indicizzate. Questo è il compito di un tagnoindex
, aggiunto nell'header della pagina web. Usando un CMS, come ad esempio Wordpress, hai una impostazione che per ogni pagina ti consente di settare il tagnoindex
; un errore di configurazione potrebbe dunque portare a comunicare per sbaglio l'intenzione di non indicizzare una o più pagine. - configurazione del file robots.txt.
Rilevata, ma attualmente non indicizzata
Infine: tra i casi in cui un sito pagina web non viene indicizzata, c'è quello indicato da Google con la dicitura: Rilevata, ma attualmente non indicizzata. Fai attenzione allo screenshot precedente: tale dicitura indica che la pagina non è ignota a Google: è stata trovata ma non ancora aggiunta all'indice, e dunque il processo di indicizzazione è iniziato, ma non ancora completato. Tuttavia, la mancata indicizzazione testimoniata dalla dicitura rilevata, ma attualmente non indicizzata può dipendere da vari altri motivi che richiederebbero una trattazione separata; di seguito ne citiamo qualcuno:
- la pagina è stata trovata ma la scansione viene rimandata perché ad esempio il server era sovraccarico;
- questo è particolarmente interessante: Google ritiene la pagina non meritevole di indicizzazione, perché ad esempio scarna, con poche informazioni e di scarsa utilità per gli utenti. In tali casi si parla di soft 404.
Robots.txt
Qui entriamo un po' sul tecnico e non ci dilungheremo; ci limitiamo a segnalare l'esistenza di un file, detto robots.txt, salvato sul server, che da' istruzioni ai motori di ricerca su quali pagine indicizzare, e quali no. Per adesso possiamo dire che un file robots.txt è un file di testo, salvato nella cartella principale del tuo server, che specifica se tutti o alcuni spider possono o non possono accedere a determinate parti del sito internet, ponendo delle regole.
Ad esempio:
Con la regola che segue consenti a qualsiasi spider o web crawler di indicizzare ogni cosa del tuo sito.
User-agent: *
Allow: /
Con questa invece neghi a qualsiasi spider l'accesso e dunque l'indicizzazione a qualsiasi contenuto del tuo sito che si trovi nella cartella /esempio.
User-agent: *
Disallow: /esempio
IN BREVE: le regole possono essere solo Allow oppure Disallow, a seconda che si voglia concedere o meno l'accesso agli spider indicati come user-agent a determinate cartelle del sito.
Fai attenzione dunque: un file robots.txt configurato male può impedire a Google di accedere al tuo sito ed indicizzarlo, del tutto o in parte.
Come migliorare l'indicizzazione di un sito?
A questo punto possiamo provare ad individuare alcune best practices; per migliorare l'indicizzazione di un sito occorre:
- una efficace struttura di link interni che colleghino tra loro le pagine del sito;
- un file sitemap che elenchi gli indirizzi di tutte le pagine del sito di cui chiediamo l'indicizzazione;
- indicare per ogni pagina l'url da indicizzare con il tag
canonical
. Qui si va un po' sul tecnico ma è un aspetto importante e conviene introdurlo.
Canonical Url
In alcuni casi una medesima pagina è raggiungibile attraverso due identiche url. Due indirizzi diversi portano alla stessa pagina, o meglio, a due pagine distinte ma dal contenuto identico. Spiegare perché questo accade ci porterebbe lontano; possiamo sintetizzare dicendo che questo avviene per ragioni proprie al funzionamento dei CMS, ossia le piattaforme molto diffuse, come Drupal, Joomla o Wordpress, tramite cui è possibile creare e gestire un sito internet.
Ad ogni modo, avere due o più pagine dal contenuto identico porta Google a considerarle duplicated content e pone per i motori di ricerca il problema di decidere quale convenga indicizzare.
Se non possiamo escludere la possibilità che una stessa pagina possa essere identificata da url diverse, producendo dunque uno o più "duplicati", possiamo indicare ai motori di ricerca l'url "ufficiale" di ogni pagina: quella che vogliamo venga indicizzata. In altre parole, specificare qual è quella "originale" e distinguerla così da eventuali duplicati.
Per far questo bisogna aggiungere nella sezione <head>
della pagina il seguente tag, la cui funzione è proprio quella di indicare l'indirizzo della pagina: <link="canonical" href="https://url-della-pagina-web"/>
Come inserire il tag canonical
Usando un CMS non è possibile o comunque di certo non agevole inserire manualmente del codice nella sezione <head>
. Tuttavia, ogni CMS da' la possibilità di aggiungere il tag canonical
e relativa url ad ogni pagina attraverso il backoffice del CMS. In tal modo, anche eventuali "copie" recheranno il tag con il l'indirizzo della pagina "originale"; quando Google si imbatterà nelle pagine duplicato troverà l'indicazione dell'url canonico e tralascerà le copie.
Per completezza bisogna aggiungere che il tag canonical
suggerisce di indicizzare l'url specificato, ma non esclude che il motore di ricerca...la pensi diversamente e indicizzi un altro indrizzo per quella stessa pagina. È possibile però confermare la scelta e...risultare più convincenti:
- indicando nel file sitemap per ogni pagina la sola url che vogliamo sia indicizzata.
- re-indirizzando le url "gemelle" verso quella da noi indicata con il tag
canonical
; il come effettuare un re-indirizzamento è però un argomento che non possiamo trattare in questa sede.
In conclusione, aggiungere il tag canonical
è un accorgimento importante in chiave SEO per ottenere una migliore indicizzazione di un sito internet.
C'è dell'altro che posso fare?
Abbiamo fin qui illustrato come chiedere l'indicizzazione di un sito con Google Search Console. C'è però altro che puoi fare per velocizzare l'indicizzazione.
Promuovi il tuo sito, blog o articolo. Hai investito tempo e soldi per avere finalmente qualcosa pubblicato online che possa parlare di te e delle tue competenze: promuovilo attivamente.
Comincia con il condividere il tuo ultimo articolo sui social network e fallo con convinzione: se posti solo il link, senza un testo di presentazione che introduca il contenuto ad un lettore che potrebbe essere interessato, chi ci cliccherà mai sopra?
Tramite una tua attività di promozione e supporto sui social, più persone arriveranno sul tuo blog dai social e questo può attirare l'attenzione di Google, favorendo una più veloce indicizzazione.
Vincenzo Lalli
Di formazione legale, appassionato da sempre di tecnologia ed informatica; esperienza professionale acquisita a cavallo tra i due mondi, finora piuttosto lontani tra loro. Mi dedico ad esplorare le crescenti interazioni tra il Diritto e la tecnologia, e a dare il mio contributo alla causa dell'innovazione nel settore legale; a tal fine, ho dato vita ad Avvocloud.net.