I Crawler di un motore di ricerca e il file Robots.txt

crawler e robots.txt

Il primo passo del crawler consiste nel leggere i contenuti presenti in ogni singola pagina del nostro sito web.

Tuttavia, in certi casi l’indicizzazione da parte dei crawler può essere limitata, principalmente per due ragioni:

  • la volontà di certi siti di mantenersi nascosti dalla grande piazza dei motori;
  • la lettura di parti del sito come la sezione admin o i contatti possono non essere ottimali per un’efficace posizionamento.

Per impedire che i crawler dei motori trovino il nostro sito o parte di esso (alcuni spiders non seguono il “robot exclusion protocol”, il protocollo che consente l’esclusione di contenuti dalla visita dello spider e quindi non ci sono opzioni che ne consentano il controllo.), basta effettuare delle semplici modifiche al file robots.txt.

Il file “robots.txt” è un semplice file di testo che viene caricato nella sezione principale (Root Directory) del nostro sito.


Gli spiders cercano questo file e lo analizzano, prima di visitare il vostro sito.

I parametri principali di un file robots.txt sono:

User-agent: *
Disallow:

dove:

  • la prima linea identifica lo user agent, ovvero i crawler dei motori di ricerca: se mettete asterisco, significa che la stringa seguente si applica a tutti gli agents.

  • Lo spazio bianco che segue “disallow” (letteralmente “impedisci”, non consentire) significa che niente è off-limits.
    Questo file robots dunque, non comporta nulla: consente a tutti gli user agents di vedere tutto il contenuto del sito. Se decidiamo di tenere tutti gli spiders lontani dalla nostra /Faq directory, questa sarà la procedura da seguire:

User-agent: *
Disallow: /faq/

le barre (slash) indicano  che si tratta di una directory. Senza gli slash, verrà impedito l’accesso non solo alla directory, ma a tutti i files con estensione  faq.

Si possono aggiungere altre directories a Disallow:

User-agent: *
Disallow: /faq/
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /info/about/

se vogliamo impedire l’accesso ad un solo file questa è la prcedura:

User-agent: *
Disallow: about.html
Disallow: /faq/faqs.html

Tutto quanto sopra è valido per tutti i crawleer (abbiamo infatti sempre indicato valore * alla stringa agent).
Se vogliamo applicare la regola ad un solo determinato crawler basta usarne il nome:

User-agent: googlebot
Disallow /faq/

Gli esempi qui sopra sono tratti dal un interessante tutorial sul file robots.txt, che ti consiglio di leggere per approfondire le applicazioni di questo strumento.

Altri strumenti utili per lavorare sul file robots.txt, tutti rigorosamente free, sono:

due strumenti per creare un file robots.txt:



Se vuoi approfondire l’argomento, ecco una serie di articoli esaustivi:



Che si voglia o meno che il proprio sito o parte di esso siano analizzati dal crawler, la presenza del file robots.txt da ai motori un idea di maggiore professionalità evitando eventuali penalizzazioni in fase di indicizzazione e soprattutto di posizionamento nelle SERP.


No related posts.

Leave a Reply