Robots.txt: come gestire gli spider dei motori
Abbiamo visto che, qualsiasi cosa facciamo per aumentare la visibilità nei motori di ricerca, siamo noi a doverci adattare agli spider dei search engine. E’ possibile però far adattare i robots alle nostre esigenze, indirizzandoli (Cloaking) all’interno del sito, a nostro piacimento. Oggi questa metodologia è molto sconsigliata, perchè “sgradita” alla maggior parte dei motori in quanto poco individuabile.
Se foste in possesso di un dominio, è possibile creare un file di nome robots.txt che va inserito nella root principale (www.dominio.com/robots.txt). In questo file, vanno inserite le istruzioni per “governare” il ragno. Ad esempio:
Escludere tutti i robots dai files contenuti nel dominio:
User-agent: *
Disallow: /
Consentire l’accesso a tutti i robots:
User-agent: *
Disallow:
(è anche possibile non creare il file o lasciarlo vuoto)
Escludere tutti i robots da una o più cartelle:
User-agent: *
Disallow: /cgi_bin/
Disallow: /secret/
Escludere un robot (nell’esempio quello di Excite) da alcune cartelle:
User-agent: ArchitextSpider
Disallow: /cgi_bin/
Disallow: /secret/
Escludere un robot (nell’esempio quello di Altavista) da tutti i file del dominio:
User-agent: Scooter
Disallow: /
Per conoscere i nomi dei ragni di altri motori di ricerca, rimandiamo alle pagine dei rispettivi search engines. Per informazioni sui robots: http://www.robotstxt.org/wc/robots.html
Se non in possesso di un dominio, esiste un meta tag ad hoc, che nonostante la minore flessibilità e potenza rispetto all’inserimento del file robots.txt, consente un discreto risultato:
<meta name=”robots” content=”noindex, nofollow”>