Lo spider di Google è passato dal mio sito?

Come faccio a sapere quando lo spider di Google è passato dal mio sito?

Una domanda questa che é  stata posta nel forum di assistenza per i webmaster di Google.

Ho pensato di indicare qui uno script che aiuti a segnalare il passaggio degli spider dei motori di ricerca conosciuti,  dandoci informazioni per esempio sulla data,  l'orario e la pagina dove é  entrato.

Come tracciare il passaggio dello Spider?

Lo script qui sotto aiuta a tenere traccia del passaggio di diversi robots conosciuti. Ci sono quindi il Crawler di Google,  lo Spider di Yahoo,  il robot di Bing,  e altri ragnetti vari che possono essere anche tolti o aggiunti seguendo l'esempio.

<?php
if (strstr($_SERVER['HTTP_USER_AGENT'], 'Yandex')){ $bot='Yandex';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Googlebot')){$bot='Google';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Mediapartners-Google')){$bot='Mediapartners-Google (Adsense)';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Slurp')){$bot='Hot&nbsp;Bot&nbsp;search';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'WebCrawler')){$bot='WebCrawler&nbsp;search';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'ZyBorg')){$bot='Wisenut&nbsp;search';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'scooter')){$bot='AltaVista';} 
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'StackRambler')){$bot='Rambler';} 
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'Aport')){$bot='Aport';} 
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'lycos')){$bot='Lycos';} 
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'WebAlta')){$bot='WebAlta';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'yahoo')){$bot='Yahoo';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'msnbot')){$bot='msnbot/1.0';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'ia_archiver')){$bot='Alexa search engine';}
else if (strstr($_SERVER['HTTP_USER_AGENT'], 'FAST')){$bot='AllTheWeb';}
 
if($bot !=""){
$b_data = "Spider.txt";
$inf = date("YmdHis",time());
$day = date("d.m.Y",time());
$time = date("H:i",time());
$ip = $REMOTE_ADDR;
$home = $_SERVER['HTTP_HOST'] . $_SERVER['REQUEST_URI'];
$data = fopen($b_data, "a");
fwrite($data, "$inf|$day|$time|$bot|$ip|$home|rn");
fclose($data);
}
?>

 


Qui sopra vediamo che la ricerca degli Spider viene fatta per nome. Per esempio nella condizione alla riga 3,  troviamo il nome del Crawler Mediapartners-Google, il robot che esegue la scansione delle pagine alla ricerca degli affiliati di Adsense, il quale quando passerá  dalla pagina dove avremo inserito questo script (si consiglia di inserirlo nel Footer della pagina al meglio prima del tag </body>),  fará  scattare il nostro script che andrá  a scrivere la data,  l'orario, l'indirizzo IP del Crawler,  il suo nome e il nome della pagina in cui é  entrato,  nella pagina Spider.txt.

 

Come installare questo script

Innanzitutto le pagine dove esso risiederá  dovranno essere delle pagine dinamiche di tipo PHP (puó  tuttavia facilmente essere convertito in altri formati dinamici),  dopo averlo inserito così come lo vedete,  creeremo una pagina che chiameremo Spider.txt,  e che andremo ad Uplodare nella root del nostro dominio. La sua posizione così  come l'estensione della pagina (htm, html, eccetera) puó essere scelta a piacere, nel caso, ci si ricordi di modificare l'indirizzo anche qui nello script. La pagina Spider come si stava dicendo,  puó essere anche in formato HTML ed essere formattata con il CSS per adattarla al layout del nostro sito se lo vorremo. Cosí come la si vede adesso,  scrive semplicemente in bianco e nero uno per riga i log dei Robots.

Buon divertimento ! 

 

Angelo Palma  é  un consulente e web stratega su www.webxall.net  WebXall si occupa dello studio per l’ottimizzazione del codice HTML. 

Leave a Reply

You must be logged in to post a comment.


Copyright (©) 2008-2012 WebXall