Usare efficacemente il robots.txt
Posted on dicembre 12th, 2008 di Angelo Palma
Parliamo dell’uso del robots.txt e della sua importanza di guardiano della root. Il capitolo della guida Seo Starter di Google parla oggi di come utilizzare al meglio il file robots.txt.
robots.txt – il portiere del nostro sito
Un file "robots.txt" indica ai motori di ricerca se essi possono accedere e quindi eseguire la scansione del sito, proprio come farebbe il portiere di un palazzo. Questo file, che deve essere chiamato "robots.txt", è collocato nella directory principale del sito.
http://www.iltuosito.it/robots.txt
Qui sopra i’indirizzo del nostro file robots.txt.

Qui sopra Indichiamo a tutti i bot dei motori di ricerca (contrassegnandolo con il simbolo dell’asterisco *), l’accesso e la scansione del contenuto posto nella cartella / images / o di un qualsiasi URL il cui percorso inizia con /search
È opportuno a volte non volere che determinate pagine del sito vengano scansionate, perché per esempio, potrebbero non essere utili per gli utenti se trovate in un risultato del motore di ricerca.
A questo proposito se si vuole evitare che i motori di ricerca eseguano la scansione delle pagine, aiutandovi con il generatore robots.txt degli Strumenti per i webmaster di Google potrete creare e testare in loco il vostro file.
Nota che, se il tuo sito utilizza i sottodomini e desideri avere determinate pagine non sottoposte a scansione su un particolare sottodominio, dovrai creare un file robots.txt separato per tale sottodominio. Per ulteriori informazioni al file robots.txt, ti suggeriamo la guida del Centro assistenza webmaster su come usare i file robots.txt.
Bloccare con il robots.txt i contenuti duplicati
Ci sono una manciata di altri modi per prevenire i contenuti che appaiono nei risultati di ricerca, come ad esempio utilizzando l’aggiunta di "NOINDEX" nella vostra meta tag robots, o usando il file Htaccess per proteggere tramite password le directory (cartelle) del sito, e infine, utilizzando gli Strumenti per i webmaster di Google per rimuovere il contenuto di cui è già stata eseguita la scansione. L’ingegnere capo del team antispam di Google, Matt Cutts, mostra in un video (in inglese) come utilizzare al meglio il Tool di rimozione Url presente negli strumenti.
Utilizzare i metodi più sicuri per bloccare dalla scansione i contenuti sensibili!
Non si consiglia di usare il robots.txt per bloccare pagine sensibili o riservate. Uno dei motivi è che i motori di ricerca potrebbero fare ancora riferimento agli URL bloccati (mostrando solo l’URL, senza nessun titolo o snippet) trovati da qualche parte su Internet (come in un referrer log). Inoltre, Spider non conformi o motori di ricerca che non riconoscono la standard di esclusione robot, potrebbero disobbedire le istruzioni del file robots.txt. Infine, un utente curioso potrebbe esaminare la directory o sottodirectory nel tuo file robots.txt e indovinare l’URL del contenuto che non si desidera far vedere. Cifrare il contenuto o proteggere l’ingresso con una password nel Htaccess, garantisce un’alternativa piú sicura.
Evita di:
- consentire la scansione di pagine simili a quelle di un risultato di ricerca (gli utenti non amano lasciare una pagina dei risultati di ricerca e atterrare su un’altra pagina dei risultati di ricerca che non aggiunge valore significativo per loro)
- permettere la scansione di un gran numero di pagine auto generate con lo stesso contenuto o solo leggermente diverso: "Queste 100.000 pagine duplicate, devono stare veramente in un indice di un motore di ricerca ? "
- Permettere la scansione di URL provenienti da servizi di Proxy
Termina qui il nostro articolo dalla guida Seo Starter di Google. Per maggiori informazioni su come usare il robots.txt puoi anche dare un’occhiata alla piccola guida al robots.txt del nostro sito.
Nella prossima puntata parleremo dell’attributo rel="nofollow". Non perdetevela mi raccomando!
Alla prossima…
Angelo Palma
Filed under: SEO