file robot txt a cosa serve e come crearlo

File Robots.txt: cos’è, a cosa serve e come crearlo

 

Cos’è il file Robots.txt e a cosa serve

Il file robots.txt è un semplice file di testo utilizzato per comunicare con i crawler dei motori di ricerca (come Googlebot, Bingbot, ecc.). Serve a controllare l’accesso dei crawler alle pagine di un sito web.
Viene letto prima che un motore di ricerca esegua la scansione delle pagine, e può dire al bot:

  • Quali directory o file non scansionare
  • Quali contenuti sono permessi
  • Dove si trova la sitemap XML

È possibile, inoltre, impostare la frequenza di scansione da parte dei bot così da evitare possibili sovraccarichi di risorse per la macchina che ospita il sito web.
Nello specifico si può utilizzare la direttiva Crawl-delay nel file robots.txt per indicare ai crawler dei motori di ricerca di attendere un determinato periodo di tempo tra una richiesta e l’altra di pagine web, con lo scopo di evitare il sovraccarico del server.

Google non supporta più questa direttiva. Per gestire la frequenza di scansione per Googlebot, è necessario utilizzare le impostazioni disponibili in Google Search Console.

 

Il file robot.txt, inoltre, è alleato della SEO in quanto permette di:

  • Evitare l’indicizzazione di aree sensibili come /admin/, /cgi-bin/, o /cart/
  • Bloccare pagine duplicate
  • Ottimizzare il crawl budget, evitando che i bot esplorino pagine irrilevanti
  • Indicare la sitemap per facilitare l’indicizzazione

Il file robots.txt deve essere salvato nella directory associata al tuo sito web, quindi sarà accessibile all’indirizzo:

https://www.tuosito.it/robots.txt

 

Configurazione del file

Per quanto riguarda la configurazione del file, di seguito alcuni esempi di direttive che possono essere inserite e che gestiscono le seguenti azioni:

Permettere a tutti i bot di scansionare tutti i contenuti del sito

User-agent: *
Disallow:

Bloccare a tutti i bot la scansione di tutto il sito

User-agent: *
Disallow: /

Bloccare a tutti i bot solo un file o una cartella specifica

User-agent: *
Disallow: /admin/

User-agent: *
Disallow: /file.html

Bloccare a un bot specifico (es. Googlebot) solo una determinata cartella o file oppure tutti i contenuti del sito

User-agent: Googlebot
Disallow: /admin/

User-agent: Googlebot
Disallow: *

Direttiva Crawl-delay (indica un ritardo di 5 secondi tra ogni richiesta)

Crawl-delay: 5

Indicare la sitemap

Sitemap: https://www.tuosito.it/sitemap.xml

 

Una volta configurato il file robot.txt è necessario comunque tenere a mente alcuni aspetti come ad esempio che lo stesso file non protegge i contenuti: impedisce solamente ai bot di leggerli. Un utente umano può comunque accedere al contenuto se conosce l’URL.
Inoltre, Google può comunque indicizzare una pagina bloccata se ci sono link esterni che la puntano.

Per verificare le direttive inserite è possibile utilizzare lo strumento di Test robots.txt di Google Search Console per testare la validità del file.

Una volta configurato e salvato il file è comunque necessario attendere una nuova scansione da parte dei bot affinché leggano e quindi seguano le direttive inserite.