Guida al file Robots.txt: creazione e utilizzo del file per la SEO

da | 10 Feb 2025

Se pensi che il file robots.txt serva a impedire l’indicizzazione di una pagina su Google, in realtà non è esattamente così.

Infatti, la scansione e l’indicizzazione dei contenuti sono due processi diversi. Iniziamo col dire che il file robots.txt è uno strumento essenziale per ottimizzare il crawl budget, ossia le risorse che Google impiega per scansionare i contenuti di un sito. Limitare la scansione di pagine duplicate o poco rilevanti è fondamentale per una buona SEO, soprattutto per siti di grandi dimensioni con centinaia di pagine.

Per ottimizzare il crawl budget, è necessario indicare al motore di ricerca quali pagine non andranno scansionate, per effettuare questa operazione è necessario conoscere e padroneggiare il file robots.txt.

In questa guida vedremo cos’è il file robots.txt, qual è il modo corretto per evitare che Google scansioni una pagina, come configurare il robots.txt in base alle esigenze del tuo sito e perché una pagina che non viene scansionata può essere comunque indicizzata.

File robots.txt: cos’è e come gestirlo

Il file robots.txt è un semplice file di testo posizionato nella directory principale del tuo sito web (es. public_html). La sua funzione principale è specificare ai crawler dei motori di ricerca quali pagine o sezioni del sito devono essere escluse dalla scansione e quindi tendenzialmente anche dall’indicizzazione.

Questo strumento è parte del Robots Exclusion Protocol e viene utilizzato principalmente per evitare che i crawler di Google e gli altri motori di ricerca sovraccarichino il server con richieste eccessive.

Gestire correttamente il file robots.txt è importante per diverse ragioni:

  • Controllo dell’indicizzazione: puoi impedire che contenuti sensibili o non pertinenti vengano scansionati, mantenendo così una maggiore privacy.
  • Ottimizzazione del crawl budget: limitando l’accesso a pagine non essenziali, assicuri che i crawler si concentrino sulle sezioni più importanti del tuo sito, migliorando l’efficienza dell’indicizzazione.
  • Prevenzione di duplicati: puoi evitare che versioni duplicate o troppo simili delle tue pagine vengano indicizzate, mantenendo così l’integrità dei risultati di ricerca, senza andare incontro a probabili penalizzazioni.

È importante notare che il file robots.txt non garantisce una protezione assoluta dei contenuti. Alcuni crawler potrebbero ignorare le direttive indicate, inoltre, le pagine escluse potrebbero comunque essere indicizzate se collegate da altri siti.

Per questo motivo, se pensi che il file robots.txt impedisca l’indicizzazione, devi sapere che un contenuto inserito nel file robots.txt può comunque essere trovato e indicizzato.

File robots.txt e tag noindex: evitare la scansione o l’indicizzazione? 

Il file robots.txt e il tag noindex servono entrambi a controllare il comportamento dei motori di ricerca, ma in modi diversi. Il robots.txt impedisce la scansione di una pagina, mentre il tag noindex ne blocca l’indicizzazione.

Se una pagina è bloccata dal robots.txt, Google non potrà leggerne il noindex, lasciando l’URL potenzialmente indicizzabile (se linkato da altre fonti). 

Per rimuovere una pagina dai risultati di ricerca, è meglio non bloccarla dal robots.txt e lasciare che Google la scansioni e legga il noindex.

Riassumendo: se un contenuto viene inserito nel file robots, non viene scansionato al momento del crawling sul sito ma può essere comunque scansionato e indicizzato se trovato altrove (ad esempio da backlink provenienti da altri siti). Se invece, è presente il tag noindex il contenuto viene scansionato ma non indicizzato, neppure se viene linkato da altri siti.

Quando usare il tag noindex

Per un’ottimizzazione SEO efficace, è consigliabile utilizzare il tag noindex per i contenuti che non devono apparire nei risultati di ricerca, ma che possono comunque essere utili per Google. Con il noindex, infatti, Google continuerà a scansionare la pagina e seguirne i link, senza però includerla nell’indice.

Tra questi contenuti rientrano, ad esempio, le pagine relative alla Privacy Policy e ai Termini e Condizioni.

Sebbene non siano di interesse per gli utenti nelle SERP, sono comunque rilevanti per Google. In questo modo, possiamo consentire la scansione di queste pagine senza che vengano indicizzate e mostrate nei risultati di ricerca.

Esempio da inserire nella pagina interessata:

<meta name=”robots” content=”noindex, follow”>

Quando usare il file robots.txt

Un file robots.txt ottimizzato in ottica SEO, viene usato per gestire contenuti poco rilevanti sia per gli utenti che per Google. Limitare l’accesso a pagine inutili consente di ottimizzare il crawl budget, evitando che i motori di ricerca sprechino risorse su sezioni del sito prive di valore per l’algoritmo.

Ad esempio, cartelle tecniche, file di sistema e aree di amministrazione sono elementi che non apportano benefici SEO e possono essere esclusi dalla scansione per migliorare l’efficienza del crawling.

Esempio di file robots.txt di un sito WordPress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/

Promemoria: se vuoi che una pagina non venga indicizzata, usa il noindex. Se vuoi solo bloccare la scansione per risparmiare crawl budget, usa il robots.txt.

Come creare il file robots.txt in base al tuo sito web

La creazione di un file robots.txt è un processo semplice ma richiede attenzione per garantire che le direttive siano implementate correttamente. Ecco i passaggi fondamentali:

  • Apri un editor di testo: utilizza un editor di testo semplice come Notepad su Windows o TextEdit su macOS.
  • Definisci gli user-agent: specifica a quali crawler si applicano le direttive. Ad esempio, User-agent: * si riferisce ai crawler di tutti i motori di ricerca, mentre User-agent: Googlebot si applica solo al crawler di Google.
  • Imposta le direttive: utilizza le direttive Disallow per indicare le pagine o le directory che non devono essere scansionate. Ad esempio, Disallow: /wp-admin/ impedisce l’accesso alla directory /wp-admin/.
  • Definisci le eccezioni: se vuoi bloccare un’intera directory ma consentire l’accesso a un file specifico all’interno di essa, usa il comando Allow.
  • Specificare la sitemap XML: indicarla nel robots.txt aiuta i motori di ricerca a trovare e scansionare più rapidamente le pagine importanti.
  • Salva e carica il file: nomina il file come robots.txt e salvalo nella directory principale del tuo sito web.

Ricorda di verificare la sintassi e di testare il file una volta caricato utilizzando strumenti come la Google Search Console per assicurarti che le direttive siano interpretate correttamente dai crawler.

File robots.txt su WordPress

Se il tuo sito è basato su WordPress, la gestione del file robots.txt può essere effettuata in più modi:

  • File fisico: puoi creare manualmente un file robots.txt e caricarlo nella directory principale del tuo sito tramite il file manager.
  • Plugin SEO: molti plugin SEO per WordPress, come Yoast SEO o AIOSEO, offrono funzionalità integrate per modificare il file robots.txt direttamente dal pannello di amministrazione.

Come abbiamo detto precedentemente, una corretta gestione del file robots.txt è fondamentale per migliorare l’indicizzazione del sito e assicurarsi che Google e gli altri motori di ricerca scansionino solo i contenuti più rilevanti.

Una buona indicizzazione aumenta la visibilità del sito e ne facilita il posizionamento nei risultati di ricerca.

Nella mondo della SEO, l’indicizzazione è uno degli aspetti più delicati e al contempo cruciali per un buon posizionamento.

Se vuoi approfondire come far indicizzare correttamente un sito WordPress e capire meglio come funziona il processo di indicizzazione, consulta la guida che abbiamo scritto per gestire l’indicizzazione di un sito WordPress.

I limiti del file robots.txt

Sebbene il file robots.txt sia uno strumento potente, presenta alcune limitazioni:

  • Conformità volontaria: i crawler rispettano le istruzioni del robots.txt su base volontaria. Quindi potrebbero anche non rispettare le direttive.
  • Non protegge i dati sensibili: il robots.txt non impedisce l’accesso diretto ai file. Per proteggere realmente contenuti privati, è necessario usare metodi più sicuri come password e restrizioni a livello di server.
  • Non impedisce l’indicizzazione di URL già noti: se un URL è già stato indicizzato o linkato da altre fonti, Google potrebbe comunque scansionarlo, indicizzarlo e mostrarlo nei risultati di ricerca.

Il file robots.txt è uno strumento utile per gestire la scansione del sito da parte dei motori di ricerca, ma da solo non basta per migliorare la SEO. L’ottimizzazione per i motori di ricerca è un processo complesso che coinvolge molti aspetti, tra cui la qualità dei contenuti, la struttura del sito, la velocità di caricamento, la user experience e l’autorevolezza dei link in entrata.

Ad esempio, anche se il file robots.txt aiuta a indirizzare i crawler verso le pagine più importanti, è altrettanto fondamentale che queste pagine siano ben ottimizzate, con contenuti pertinenti e rispondenti alle query degli utenti. Inoltre, un buon uso dei dati strutturati, una sitemap XML aggiornata e una solida strategia di link building possono fare la differenza nel posizionamento di un sito.

Per ottenere risultati concreti, è importante conoscere e applicare le migliori pratiche SEO in modo strategico e integrato. Se vuoi approfondire i fattori che influenzano il posizionamento su Google e scoprire come ottimizzare al meglio il tuo sito, ti consigliamo di leggere la nostra guida completa sulla SEO.

Altri articoli dal nostro Magazine

×