Cos’è il file Robots.txt e a cosa serve
Il file robots.txt è un semplice file di testo utilizzato per comunicare con i crawler dei motori di ricerca (come Googlebot, Bingbot, ecc.). Serve a controllare l’accesso dei crawler alle pagine di un sito web.
Viene letto prima che un motore di ricerca esegua la scansione delle pagine, e può dire al bot:
- Quali directory o file non scansionare
- Quali contenuti sono permessi
- Dove si trova la sitemap XML
È possibile, inoltre, impostare la frequenza di scansione da parte dei bot così da evitare possibili sovraccarichi di risorse per la macchina che ospita il sito web.
Nello specifico si può utilizzare la direttiva Crawl-delay nel file robots.txt per indicare ai crawler dei motori di ricerca di attendere un determinato periodo di tempo tra una richiesta e l’altra di pagine web, con lo scopo di evitare il sovraccarico del server.
Il file robot.txt, inoltre, è alleato della SEO in quanto permette di:
- Evitare l’indicizzazione di aree sensibili come /admin/, /cgi-bin/, o /cart/
- Bloccare pagine duplicate
- Ottimizzare il crawl budget, evitando che i bot esplorino pagine irrilevanti
- Indicare la sitemap per facilitare l’indicizzazione
Il file robots.txt deve essere salvato nella directory associata al tuo sito web, quindi sarà accessibile all’indirizzo:
Configurazione del file
Per quanto riguarda la configurazione del file, di seguito alcuni esempi di direttive che possono essere inserite e che gestiscono le seguenti azioni:
Permettere a tutti i bot di scansionare tutti i contenuti del sito
User-agent: *
Disallow:
Bloccare a tutti i bot la scansione di tutto il sito
User-agent: *
Disallow: /
Bloccare a tutti i bot solo un file o una cartella specifica
User-agent: *
Disallow: /admin/
User-agent: *
Disallow: /file.html
Bloccare a un bot specifico (es. Googlebot) solo una determinata cartella o file oppure tutti i contenuti del sito
User-agent: Googlebot
Disallow: /admin/
User-agent: Googlebot
Disallow: *
Direttiva Crawl-delay (indica un ritardo di 5 secondi tra ogni richiesta)
Crawl-delay: 5
Indicare la sitemap
Sitemap: https://www.tuosito.it/sitemap.xml
Una volta configurato il file robot.txt è necessario comunque tenere a mente alcuni aspetti come ad esempio che lo stesso file non protegge i contenuti: impedisce solamente ai bot di leggerli. Un utente umano può comunque accedere al contenuto se conosce l’URL.
Inoltre, Google può comunque indicizzare una pagina bloccata se ci sono link esterni che la puntano.
Per verificare le direttive inserite è possibile utilizzare lo strumento di Test robots.txt di Google Search Console per testare la validità del file.
Una volta configurato e salvato il file è comunque necessario attendere una nuova scansione da parte dei bot affinché leggano e quindi seguano le direttive inserite.