Oggi voglio parlarti di un argomento tecnico che riguarda il fantastico mondo della SEO e che spesso rimane risulta un po’ ostico a chi si è appena avvicinato alla materia: file Robots txt.
Il File Robots è un elemento fondamentale per chi si occupa di SEO e per chi in generale gestisce il proprio sito web e vuole ottimizzarlo per i motori di ricerca.
Se non sei mai entrato in questo blog ti do il benvenuto, mi chiamo Nadia e da alcuni anni mi occupo di Digital marketing, in particolare ho il mio focus sulla creazione di contenuti efficaci che rispettano le regole della scrittura e della SEO, così da fare felici gli utenti e papà Google.
In questo articolo trasformerò un argomento che appare “aramaico” in qualcosa di comprensibile, quindi seguimi fino alla fine e avrai il tuo file pronto sa inserire nel sito.
Indice dei contenuti
Cos’è il file Robots.txt?
Il file Robots.txt è un particolare file che si trova nella cartella principale di un sito web e indica ai bot che entrano nel sito a scansionare le varie pagine come devono comportarsi.
Di solito è raggiungibile all’indirizzo:
https://www.nomedeltuosito.it/robots.txt
Ma facciamo un passo indietro così che tu possa capire quello che accade…
Hai creato il tuo bel sito web con WordPress, il sito inizia a girare sui vari canali di comunicazione digitale, quindi principalmente su Google che è utilizzato dal 98% degli italiani e sui social media come Facebook, Instagram, WhatsApp.
Quando Google si accorge dell’esistenza del tuo sito web fa tre cose:
- La prima cosa è invia un crawler chiamato anche bot (un programmino che scansiona i contenuti del web), dunque entra all’interno delle pagine e scansiona tutto ciò che trova all’interno, la scansione avviene per codice, ma per intenderci i titoli, i paragrafi, le immagini, gli eventuali video che hai inserito vengono scansionati così che Google comprenda cosa contiene la pagina.
- La seconda cosa che fa l’indicizzazione, cioè inserire il sito in questo grande database di dati e quindi il tuo sito risulta visibili sui motori di ricerca.
- La terza cosa è attribuire un punteggio complessivo al sito e dettagliato ai vari contenuti (la sto semplificando al massimo) quindi magari hai un sito performante, che ha una buona struttura e dei contenuti di qualità. A questo punto il sito inizia a crescere sui motori di ricerca, cioè Google premia i contenuti che tu hai prodotto.
Concentriamoci ora sul crawler o chiamato bot…
Il bot, quello di Google viene chiamato Google Bot, è un programma che ha l’obiettivo di simulare un utente che entra all’interno del tuo sito da desktop (dal computer) e da mobile (dal cellulare) per scansionare i contenuti che si trovano sulla rete.
In informatica esistono vari tipi di bot, quelli che si occupano di scansionare le pagine web vengono chiamati i “web bot” e ce ne sono di diversi tipi.
In questo caso ci concentriamo sui bot relativi ai motori di ricerca, sì perché ovviamente anche se come lo chiamo io papà Google domina su tutti gli altri esistono altri strumenti.
Ecco quelli più famosi:
- Google usa Google Bot
- Yandex (il motore di ricerca russo) usa Yandex Bot
- Baidu (il motore di ricerca cinese) usa Baidu Spider
Come per la maggior parte degli argomenti legati all’ottimizzazione anche in questo caso la spiegazione necessiterebbe di una lezione approfondita, quindi qui ci concentreremo sui Bot relativi ai motori di ricerca.
A cosa serve un file Robots.txt?
Nadia, non mi ha ancora detto cosa ci faccio con questo file.
Sì lo so, non voglio dilungarmi solo che senza alcuni pezzi comprendere il resto è impossibile.
Dunque ricapitolando…
Il bot entra nella pagina di un sito web, scansiona il contenuto, lo indicizza e gli attribuisce un punteggio. I bot sono tanti quanto sono i motori di ricerca e ci sono anche i bot dei SEO tool, quindi in pratica una marea di piccoli programmini che girano per la rete.
Il file Robots è un file che si compila e si inserisce nella directory principale del sito, per esempio nel caso di un sito realizzato con WordPress lo trovi nella cartella public_html.
In pratica di tratta di un file composto da una serie di regole che blocca o consente l’accesso di un bot ad un sito web, quindi in pratica attraverso queste regole puoi dire al Bot di Baidu che non deve entrare nel tuo sito web perché non vuoi essere presente su Baidu (esempio da valutare caso per caso).
Ora la domanda successiva sarà:
Perché dovrei impedire la scansione del mio sito web ad un bot?
La prima risposta è quella più ovvia, perché magari non ti interessa che uno spider scansioni il tuo sito web per un determinato mercato, la seconda è che ogni volta che uno spider entra per scansionare delle pagine richiede delle risorse al server e inoltre alcune di queste pagine sono inutili per il posizionamento.
Pensa se magari all’interno del tuo sito hai un’area riservata, ma nel Robots non l’hai esclusa.
In questo modo fai fare un lavoro inutile al Bot che scansionerà quelle pagine che in realtà non danno un valore al fine del posizionamento.
Il vocabolario del File Robots
Di seguito un breve vocabolario che ti aiuterà a comprendere le parole più comuni utilizzate per la creazione di questo file e in generale che leggerai spesso nella SEO tecnica:
- Direttiva: è una regola scritta che invita il bot a scansionare o non scansionare il sito, una cartella del sito oppure una pagina specifica
- Bot/Crawler: ci si riferisce al programma che ha il compito di scansionare le pagine web
- User agent: è il termine che indica il bot del motore di ricerca, per esempio nel caso di Google si utilizza lo user agent Googlebot (scritto così tutto attaccato)
Lo sapevi che…
Lo sapevi che agli inizi di Google sul suo sito era presente un file di scherzo che si trovava nella cartella /killer.robots.txt e invitava i Terminator a non uccidere i fondatori dell’azienda Larry Page e Sergery Brin. Troppo divertente!
Le direttive principali del File robots
Le direttive sono le regole che scrivi all’interno del file, attenzione in realtà non tutti i bot seguiranno queste regole, ma almeno per ciò che riguarda l’argomento di questo articolo quindi i bot dei motori di ricerca e dei SEO tool le seguiranno.
In base alle linee guida di Google sappiamo che le direttive principali sono le seguenti:
- Allow
- Disallow
- Crawl-delay
- Sitemap
P.S.: Il no index e il no follow invece sono delle direttive che non vengono supportate da Google all’interno del file Robots, quindi ti consiglio di modificare questi parametri direttamente all’interno delle singole pagine che non vuoi indicizzare o non far seguire dai bot.
Allow
Allow significa segui e dunque quando compare significa che il bot in questione può seguire tutti i contenuti segnalati.
Esempio:
User-agent: *
Allow: /
In questo caso troviamo user-agent che è il nome del bot, come vedi dopo appare un asterisco che vale a dire che tutti i bot possono seguire, di seguito la cartella. Lo slash in questo caso rappresenta tutto il sito, per cui stiamo dicendo a tutti i bot di scansionare tutto il sito.
Disallow
La direttiva disallow che significa non seguire viene utilizzata quando non vuoi far scansionare a tutti i bot oppure a bot specifici il sito, una parte del sito o un contenuto specifico. Quindi facciamo finta che tu abbia all’interno del sito una serie di documenti nella cartella download:
User-agent: *
Disallow: /cartella-download /
Tutti i bot non devono seguire la cartella.
Attenzione non significa che non troveranno quei documenti, ma che non li scansioneranno.
Crawl-delay
La direttiva crawl-delay viene utilizzata per i siti web di grandi dimensioni che avendo molti contenuti rischiano di sovraccaricare i server di richieste da parte dei bot.
Immagina per esempio il mega e-commerce che viene aggiornato dieci volte al giorno e quindi viene visitato dai bot spesso per la scansione.
Il suo aspetto è questo:
User-agent: Googlebot
Crawl-delay: 10
Tradotto significa:
Google Bot quando entri aspetta almeno 10 secondi tra una scansione e l’altra così da dare respiro al nostro server!
In questo caso per risparmiare risorse del server si utilizza questa direttiva, il mio consiglio è di valutare questa soluzione insieme ad un professionista, così da essere sicuro che sia la scelta migliore per il tuo caso.
Se hai un sito aziendale di 20-50 pagine o un blog di piccole dimensioni non dovresti aver bisogno di questa direttiva, quindi passa oltre.
Sitemap
La sitemap è la mappa del sito che viene scansionata regolarmente dai bot per trovare nuovi contenuti all’interno del tuo sito web, se non ce l’hai ancora ti consiglio di seguire la Guida sulla Sitempa che ho scritto.
Puoi farlo in modo semplice anche con l’aiuto di un plugin come Yoast SEO o Rank Math.
All’interno del file Robots è possibile inserire il link alla sitemap del sito, così da facilitare la scansione a Google che ha così un link pronto all’uso per trovare tutti i contenuti del sito.
Il suo aspetto nel Robots è questo:
Sitemap: https://www.nomedelmiosito.it/sitemap.xml
Come creare un file Robots (in tre modi diversi)
Se sei arrivato/a fin qui ti faccio i miei complimenti perché in effetti l’argomento richiede una certa concentrazione e anche se ho cercato di usare parole semplici bisogna farci un minimo di confidenza.
Ora arriva la parte più pratica, cioè quella in cui ti spiego come creare un file Robots.txt.
Ci sono diversi modi per creare un file Robots, in questo articolo te ne illustro tre:
- Inserirlo con un plugin (consigliato)
- Utilizzare un tool per generare i file Robots
- Scriverlo manualmente con un semplice editor di codice
Creare il file Robots con un plugin
Se hai creato il tuo sito web con WordPress la scelta più semplice è veloce è quella di utilizzare un plugin che probabilmente hai già installato, in questo esempio ti farò vedere Yoast SEO.
Le informazioni sono simili anche se hai un plugin come Rank Math.
Nel caso non avessi Yoast SEO, vai nella sezione Plugin di WodPress, scrivi in alto a destra Yoast SEO e clicca su installa. Una volta installato attiva il plugin.
Quando il plugin è attivo appare una nuova voce nel menù di WordPress che è SEO, andando sul menù troverai la voce Strumenti. Al suo interno trovi tutta una serie di funzionalità tecniche, come la creazione della sitemap di cui ti parlavo sopra e la scrittura appunto del file Robots.tx.
Nel caso in cui non dovessi vedere questi elementi probabilmente hai installato un plugin per la sicurezza che non ti permette di modificare file importanti del tuo sito web. Ti basta trovare il plugin in questione, disattivare quella funzione e procedere.
Clicca su modifica file, crea file Robots.
Ora modifica il contenuto del file facendo attenzione alla corretta sintassi.
Ti consiglio di commentare le varie modifiche così da sapere che cosa hai fatto, per commentare il file robots scrivi un # cancelletto e una frase che ti faccia capire che cosa significa la direttiva.
# Tutti i bot possono scansionare il sito
User-agent: *
Allow: /
# Sitemap del sito
Sitemap: http://www.nomesito.com/sitemap.xml
Questo è l’aspetto di base del tuo file, se invece vuoi che Googlebot scansioni l’interno sito ma altri Bot di motori di ricerca che vengono utilizzati prevalentemente all’esterno non vuoi che lo scansionino ecco come apparirà.
# Tutti i bot che non possono scansionare il sito
User-agent: Yandex
User-agent: YandexTurbo
User-agent: YandexBot
User-agent: YandexBot/3.0
User-agent: Baiduspider
Disallow: /
# Sitemap del sito
Sitemap: http://www.nomesito.com/sitemap.xml
Nell’esempio Google Bot non viene menzionato, questo significa che Google Bot coì come anche il Bot di Bing e di Yahoo possono entrare e scansionare i contenuti, mentre i bot indicati non possono passare.
Nel mio caso non ho interesse nel posizionare i miei contenuti in Cina e in Russia, quindi ho inserito i principali Bot di Yandex e il bot di Baidu.
Un’altra cosa interessante che puoi fare e che presenta Google come esempio nella sua Guida è inibire la scansione dei crawler che si occupano dell’analisi dell’advertising.
Questo è l’aspetto che avrà il tuo file con la direttiva di non scansionare le pagine per l’advertising
# Impedisci a Google ADS Bot di scansionare il sito
User-agent: AdsBot-Google
Disallow: /
Sinceramente non è una cosa che ti consiglio di fare, in generale non inibire mai la scansione del tuo sito a strumenti di Google, per evitare ogni tipo di problema.
Un aspetto che invece potresti considerare è quello di bloccare i robots nella scansione di elementi superflui all’interno del sito, come il feed RSS, le tassonomie come i tag e tutti i commenti degli utenti che quando diventano tanti possono portare ad uno spreco di risorse:
# Tutti i bot non scansioneranno il feed, i tag e i commenti
User-agent: *
Disallow: /*/feed
Disallow: /*/feed/rss
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /*?comments=all
Disallow: /wp-comments-post.php
Creare il file Robots con un tool
Il secondo metodo che ti illustro oggi per creare un file Robots.txt è l’utilizzo di un Robot Generator, un programma che ti permette di generare il file in modo automatico.
Tra l’altro non hai bisogno di scrivere particolari direttive, nel senso che ti basta selezionare le varie possibilità. Nel primo campo puoi scegliere di ammettere tutti i robots oppure di escluderli , mentre sotto puoi aggiungere delle regole.
Infine copia nella parte sottostante il link della tua sitemap e clicca su Crea robots.txt
A questo punto il sistema genera per te un file che dovrai inserire nella directory principale del sito.
Creare il file Robots manualmente con un editor di codice
La terza modalità per creare un file Robots.txt è quella di farlo manualmente utilizzando un editor di codice oppure se non ce l’hai puoi utilizzare tranquillamente due programmi che trovi di default nel computer:
- Con Windows avrai il Blocco note
- Con il Mac avrai TextEdit
Per quello che dovrai fare questi programmi sono più che sufficienti, come hai visto sopra il file è solitamente composto da poche righe per cui ci metterai pochissimo a realizzarlo. La cosa fondamentale è che venga rinominato in questo modo: robots.txt
Ricorda l’estensione txt.
Conclusione
In questo articolo hai scoperto un altro elemento importante della SEO tecnica spesso trascurato dalla maggior parte dei proprietari di siti web.
E tu alla fine sei riuscito a creare il tuo file?
Funziona correttamente?
Fammelo sapere nei commenti.
Un saluto,
Nadia
0 commenti