Lo spider di Google è passato dal mio sito?
Come faccio a sapere quando lo spider di Google è passato dal mio sito?
Una domanda questa che é stata posta nel forum di assistenza per i webmaster di Google.
Ho pensato di indicare qui uno script che aiuti a segnalare il passaggio degli spider dei motori di ricerca conosciuti, dandoci informazioni per esempio sulla data, l'orario e la pagina dove é entrato.
Come tracciare il passaggio dello Spider?
Lo script qui sotto aiuta a tenere traccia del passaggio di diversi robots conosciuti. Ci sono quindi il Crawler di Google, lo Spider di Yahoo, il robot di Bing, e altri ragnetti vari che possono essere anche tolti o aggiunti seguendo l'esempio.
<?php
if (strstr($_SERVER['HTTP_USER_AGENT'], 'Yandex')){ $bot='Yandex';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Googlebot')){$bot='Google';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Mediapartners-Google')){$bot='Mediapartners-Google (Adsense)';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Slurp')){$bot='Hot Bot search';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'WebCrawler')){$bot='WebCrawler search';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'ZyBorg')){$bot='Wisenut search';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'scooter')){$bot='AltaVista';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'StackRambler')){$bot='Rambler';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Aport')){$bot='Aport';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'lycos')){$bot='Lycos';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'WebAlta')){$bot='WebAlta';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'yahoo')){$bot='Yahoo';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'msnbot')){$bot='msnbot/1.0';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'ia_archiver')){$bot='Alexa search engine';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'FAST')){$bot='AllTheWeb';}
if($bot !=""){
$b_data = "Spider.txt";
$inf = date("YmdHis",time());
$day = date("d.m.Y",time());
$time = date("H:i",time());
$ip = $REMOTE_ADDR;
$home = $_SERVER['HTTP_HOST'] . $_SERVER['REQUEST_URI'];
$data = fopen($b_data, "a");
fwrite($data, "$inf|$day|$time|$bot|$ip|$home|rn");
fclose($data);
}
?>
Qui sopra vediamo che la ricerca degli Spider viene fatta per nome. Per esempio nella condizione alla riga 3, troviamo il nome del Crawler Mediapartners-Google, il robot che esegue la scansione delle pagine alla ricerca degli affiliati di Adsense, il quale quando passerá dalla pagina dove avremo inserito questo script (si consiglia di inserirlo nel Footer della pagina al meglio prima del tag </body>), fará scattare il nostro script che andrá a scrivere la data, l'orario, l'indirizzo IP del Crawler, il suo nome e il nome della pagina in cui é entrato, nella pagina Spider.txt.
Come installare questo script
Innanzitutto le pagine dove esso risiederá dovranno essere delle pagine dinamiche di tipo PHP (puó tuttavia facilmente essere convertito in altri formati dinamici), dopo averlo inserito così come lo vedete, creeremo una pagina che chiameremo Spider.txt, e che andremo ad Uplodare nella root del nostro dominio. La sua posizione così come l'estensione della pagina (htm, html, eccetera) puó essere scelta a piacere, nel caso, ci si ricordi di modificare l'indirizzo anche qui nello script. La pagina Spider come si stava dicendo, puó essere anche in formato HTML ed essere formattata con il CSS per adattarla al layout del nostro sito se lo vorremo. Cosí come la si vede adesso, scrive semplicemente in bianco e nero uno per riga i log dei Robots.
Buon divertimento ! 
Angelo Palma é un consulente e web stratega su www.webxall.net. WebXall si occupa dello studio per l’ottimizzazione del codice HTML.
Filed under: Crawler Robots & Spider