Robots.txt: come gestire gli spider dei motori

Abbiamo visto che, qualsiasi cosa facciamo per aumentare la visibilità nei motori di ricerca, siamo noi a doverci adattare agli spider dei search engine. E’ possibile però far adattare i robots alle nostre esigenze, indirizzandoli (Cloaking) all’interno del sito, a nostro piacimento. Oggi questa metodologia è molto sconsigliata, perchè “sgradita” alla maggior parte dei motori in quanto poco individuabile.

Se foste in possesso di un dominio, è possibile creare un file di nome robots.txt che va inserito nella root principale (www.dominio.com/robots.txt). In questo file, vanno inserite le istruzioni per “governare” il ragno. Ad esempio:

Escludere tutti i robots dai files contenuti nel dominio:

User-agent: *
Disallow: /

Consentire l’accesso a tutti i robots:

User-agent: *
Disallow:
(è anche possibile non creare il file o lasciarlo vuoto)

Escludere tutti i robots da una o più cartelle:

User-agent: *
Disallow: /cgi_bin/
Disallow: /secret/

Escludere un robot (nell’esempio quello di Excite) da alcune cartelle:

User-agent: ArchitextSpider
Disallow: /cgi_bin/
Disallow: /secret/

Escludere un robot (nell’esempio quello di Altavista) da tutti i file del dominio:

User-agent: Scooter
Disallow: /

Per conoscere i nomi dei ragni di altri motori di ricerca, rimandiamo alle pagine dei rispettivi search engines. Per informazioni sui robots: http://www.robotstxt.org/wc/robots.html

Se non in possesso di un dominio, esiste un meta tag ad hoc, che nonostante la minore flessibilità e potenza rispetto all’inserimento del file robots.txt, consente un discreto risultato:

<meta name=”robots” content=”noindex, nofollow”>