Risposta breve: non bisogna far nulla di particolare per indicizzare le pagine di un sito web. É Google che scansionando il web, trova pagine nuove e aggiorna il suo indice. A meno che il tuo sito non blocchi volutamente la scansione, ad esempio da robots.txt o da metatag inseriti in pagina come il noindex,no follow, difficilmente il tuo sito non verrà indicizzato.
Ma se hai un nuovo sito web e continui a non trovare manualmente nessuno dei suoi URL sui motori di ricerca, in questo caso, potresti avere qualche problema di indicizzazione!
Sommario
- Video su come indicizzare il proprio sito web
- Cause mancata indicizzazione sito internet
- Controllare l’indicizzazione del proprio sito web su Google
- Indicizzare sito su Google: 5 attività principali
- Come indicizzare un sito web: 3 attività di supporto
- Indicizzare Sito WordPress: errori e soluzioni
- Verifica corretta indicizzazione di un sito dopo gli interventi
- Indicizzazione e Posizionamento: ecco la differenza
- Conclusione
Nell’articolo ti spiegherò quindi come indicizzare un sito su Google e come consentire a Google Bot di scansionare facilmente le tue pagine web. Ecco cosa affronteremo:
Video su come indicizzare il proprio sito web
Se preferisci i contenuti video alla lettura di questo articolo, ti consiglio di guardare questo che trovi nel mio canale YouTube!
Cause mancata indicizzazione sito internet
Le cause per cui non si indicizza un sito su Google sono spesso estremamente banali, facili da risolvere e in alcuni casi sono dovute a disattenzioni del programmatore, del web master o del proprietario del sito.
Queste azioni possono però creare grandi danni di visibilità e a volte inficiare persino sul business e sul fatturato aziendale.
Generalmente le cause principali sono le seguenti:
- robots.txt in cui viene impedito l’accesso
- pagine singole con tag no index
- impostazioni del CMS che non consentono di scansionare il sito
- autorevolezza e architettura del sito – problemi strutturali e di trust che potrebbero tardare in termini di tempo l’indicizzazione da parte di Google ma non comprometterla. In parole semplici è solo una questione di tempo e velocità di indicizzazione ma non di errori.
Controllare l’indicizzazione del proprio sito web su Google
Per un primo controllo veloce e per verificare se il tuo sito è indicizzato su Google, inserisci il comando avanzato site:nomesito.it nella barra di ricerca di Google. Se il motore non restituisce alcun risultato allora è la conferma che il tuo sito non viene scansionato dal bot di Google. Il comando non è precisissimo, ma ti fornisce un primo dato per la tua analisi.
Altro sistema immediato per verificare che il sito non blocchi qualsiasi spider è quello di utilizzare Screaming Frog. Questo spider da desktop ti consente di capire in pochi secondi se il sito è indicizzabile.
Se una volta terminata la scansione non visualizzi nessun URL allora il sito probabilmente, salvo situazioni particolari, potrebbe avere il robots.txt “bloccato” o qualche impostazione sullo spider di Screaming Frog (in questo caso dovresti provare a cambiare il tipo di User Agent). Se invece visualizzi tutte le pagine, vuole dire che il sito non dovrebbe aver nessun tipo di problema, ma per conferma devi guardare la colonna “Indexability” dove viene indicato se la pagina è Indexable o Non-indexable.
Qui sotto ti fornirò quindi alcune soluzioni per rimediare ad eventuali malfunzionamenti e ti spiegherò come indicizzare un sito su Google correttamente.
Indicizzare sito su Google: 5 attività principali
Cosa bisogna controllare nel dettaglio e fare affinché Google Bot e gli altri spider scansionino le pagine del sito con facilità e le indicizzino sui motori?
Sistemazione del robots.txt
Il robots.txt è un file di testo, con estensione .txt appunto, che viene inserito nella root del sito. Questo file, tramite regole particolari, blocca o permette l’accesso al sito a Google bot e ad altri spider: accertati quindi che non ci siano impedimenti sostanziali.
Senza entrare troppo nel tecnico ti dico subito che se un sito ha un robots.txt con solo questa regola
User-agent: *
Disallow: /
significa che Google o qualsiasi altro spider dei motori di ricerca, non riuscirà mai a scansionarlo, indicizzarlo e quindi posizionarlo in SERP.
La regola “opposta” a quella sopra dovrebbe essere questa:
User-agent: *
Allow: /
A differenza della prima regola, che impediva l’accesso a tutto il sito, quest’ultima permette invece l’accesso totale.
Qui sotto un classico esempio di robots.txt base di un sito realizzato in WordPress che blocca solo la folder /wp-admin/
User-agent: *
Disallow: /wp-admin/
Questi sopra sono esempi fatti a grandi linee, ogni robots.txt può essere realizzato a seconda delle esigenze. È giusto sottolineare infatti che non tutte le pagine di un sito, per svariati motivi, devono essere per forza indicizzate. Esistono dei limiti che si possono impostare su cartelle e directory particolari e su spider specifici, che non sono assolutamente errori, ma regole, ragionate e impostate con cognizione di causa.
Per questo ti consiglio di leggere con attenzione questa guida ufficiale sul robots.txt.
Controllo manuale codice sorgente – tag noindex
Ulteriore verifica da fare, su pagine a campione (come la home) o su quelle che reputi abbiano dei problemi è quella di verificare che non sia impostato il meta name=”robots” content=”noindex”. Per farlo dovresti visualizzare il codice sorgente della pagina componendo il comando da tastiera CTRL U + CTRL F e cercare la parola noindex.
Se vuoi che la pagina sia raggiungibile dallo spider devi rimuovere questa indicazione.
Creazione Sitemap.xml
La sitemap.xml è un elemento che ogni sito dovrebbe avere. È infatti una mappa del sito in formato .xml che consente a Google di conoscere la sua struttura e i suoi URL. La sitemap.xml diventa anch’essa indispensabile per “aiutare” Google ad indicizzare il tuo sito, soprattutto quando si tratta di progetti con percorsi di navigazione complessi. Può essere aggiunta anche nel robots.txt per fornirla direttamente a Google.
Se utilizzi CMS come WordPress, il plugin SEO by Yoast presenta nativamente una sezione dedicata alla creazione della sitemap. Al contrario puoi usare strumenti di creazione di mappe .xml.
Apertura Google Search Console e invio Sitemap
Google, e anche Bing, mettono a disposizione dei web master strumenti che sono davvero utili per avere sotto controllo tutto lo stato di indicizzazione di un sito.
Google Search Console è uno strumento fondamentale per chi ha un sito, perché fornisce informazioni sullo stato di salute del nostro progetto web.
Tramite Google Search Console è possibile inviare la sitemap.xml al motore di ricerca e “avvisare” Google della presenza del nostro sito.
Ti basterà andare in Sitemap> aggiungi/testa sitemap > inserire il percorso/URL e inviarla.
Una volta inviata la sitemap.xml, la Search Console ci indicherà quali delle nostre pagine sono state inviate e indicizzate.
Non solo, la sezione “scansione” ci consente di:
- testare il file robots.txt e individuare eventuali problemi o errori
- inviare URL manualmente tramite la sezione “controlla qualsiasi URL” e indicizzare velocemente una pagina. Non è consigliabile utilizzare sempre questa funzione, ma può comunque tornare molto comoda.
- gestire i parametri URL
- visualizzare gli errori e le statistiche di scansione (errori 404, errori 500)
Nella sezione “Copertura” invece scoprire lo stato dell’indicizzazione (errore, valide con avvisi, valida, esclusa).
Indicizzare velocemente una pagina di un sito su Google
Come anticipato poco sopra, è possibile avvisare Google dell’aggiunta di una nuova pagina sul proprio sito e richiederne l’indicizzazione tramite la Search Console.
Basterà andare nella barra di ricerca in alto “controlla qualsiasi URL” > inserire l’URL > visualizzare se l’URL è già stato scansionato, ed eventualmente richiedere l’indicizzazione. Questo approccio personalmente lo uso in condizioni particolari, ma è sicuramente un modo veloce per indicizzare su Google una risorsa.
Questi punti che ti ho indicato diventano quindi le azioni tecniche di base per aiutare ad indicizzare un sito su Google. Ne esistono però altre che vanno a supportare tutta questa attività. Eccole di seguito.
Come indicizzare un sito web: 3 attività di supporto
Per velocizzare l’indicizzazione di alcune risorse, sempre se il robots.txt permette l’accesso al bot e che la sitemap sia stata creata e inviata a Google, possiamo fare le seguenti azioni:
- Condividere la nostra pagina ad esempio in una descrizione del proprio video su Youtube
- Far linkare la pagina tramite attività di link building all’interno di portali tematici, infografiche, forum, directory di valore come hotfrog.
- Creare una struttura snella, con percorsi di navigazione chiari e facilmente raggiungibili dal bot. Prestare quindi massima attenzione all’Internal Linking.
Le prime due sono attività marginali che possono però essere di supporto nel velocizzare e indicizzare un sito o una pagina su Google e aiutano anche nel posizionamento. Sia chiaro se il sito non è raggiungibile dallo spider queste attività non portano nessun beneficio. L’ultima dovrebbe essere una prerogativa fondamentale.
Indicizzare Sito WordPress: errori e soluzioni
Piccola parentesi invece per quanto riguarda il CMS più utilizzato al mondo: WordPress.
Indicizzare un sito WordPress su Google è la stessa identica cosa di indicizzare un sito realizzato con qualsiasi CMS come Joomla!, Prestashop, Magento. Le regole base da rispettare sono le medesime espresse sopra.
Due cose richiedono però attenzione e devono essere verificate:
1) Il primo riguarda la sezione Impostazioni > lettura > Visibilità ai motori di ricerca > casella “Scoraggia i motori di ricerca ad effettuare l’indicizzazione di questo sito”.
Ho analizzato siti di clienti che lamentavano problemi di indicizzazione perchè questa voce era spuntata. Dopo un restyling o meglio, un rifacimento di un sito, il webmaster aveva dimenticato di togliere questa voce e non aveva controllato il robots.txt.
È un errore SEO che mi è capitato più volte di vedere in diversi progetti web e può creare grandi danni.
Per ovviare a questi inconvenienti leggi il mio articolo sulla SEO Checklist da applicare quando si pubblica un nuovo sito online.
2) Il secondo riguarda il plugin SEO by Yoast, nella sezione impostazioni avanzate >“Consenti ai motori di ricerca di mostrare Articolo nei risultati delle ricerche?” dove la tendina è settata di default sul SI ma, per errore o per scelta, potrebbe essere settata in meta name noindex, follow. In questo caso il crawler non indicizza ma scansiona lo stesso la pagina seguendo i link interni.
Verifica corretta indicizzazione di un sito dopo gli interventi
Una volta sistemate le problematiche espresse poco sopra, per verificare la corretta indicizzazione di un sito web ed essere sicuro di aver fatto le cose correttamente ti basterà fare le seguenti azioni:
- Screaming Frog – come anticipato nel punto 1 delle azioni principali da svolgere, basta inserire il dominio, lanciare il software e verificare cosa viene scansionato ed eventualmente ancora bloccato.
- Controlla qualsiasi URL – inviare manualmente un URL a Google tramite Search Console e analizzare i dati restituiti.
- Comando avanzato site:nomesito – verificare che nell’indice di Google siano presenti gli URL del sito – in questo caso ci potrebbe volere più tempo. Tramite la copia cache di Google è possibile però capire quando l’istantanea della pagina è stata visualizzata. Per visualizzarla basta trovare lo snippet della pagina del sito che ci interessa > cliccare la freccia verde alla fine dell’URL > e cliccare copia cache
Indicizzazione e Posizionamento: ecco la differenza
Un po’ di teoria. Per chi non è del settore, spesso la parola posizionamento su Google viene confusa con indicizzazione. I due termini a volte sono utilizzati erroneamente come sinonimi ma il loro significato è molto diverso.
- Il termine indicizzazione indica che un sito è presente nella copia delle pagine scansionate da Google – ovvero che compare nell’archivio dei suoi server.
- Il termine posizionamento significa invece che un sito è posizionato in SERP per determinate parole chiave e che compare quando una di queste viene ricercata da un utente. Leggi questo articolo per capire quali tool si utilizzano per la verifica del posizionamento di un sito.
Conclusione
In questo articolo ti ho spiegato come indicizzare un sito su Google e ti ho elencato le attività importanti da fare e quelle che sono di supporto. Se il tuo sito presenta un problema di indicizzazione inizia ad indagare sugli aspetti elencati e potresti trovare la soluzione in breve tempo.