Il duro lavoro degli “Spider”

di djtwenty
Pubblicato January 31st, 2010 at 4:26 pm

Molte volte vi sarete domandati come i vari motori di ricerca possano, in un lasso di tempo relativamente breve, inserire ed aggiornare la moltitudine di siti e pagine che affollano il Web.

Ovviamente è un lavoro costante e continuativo che comporta l’utilizzo di risorse informatiche ed infrastrutturali spesso al di sopra di quanto possiamo immaginare, il Web è un ambiente in continua evoluzione ed i Social Network hanno dato un impulso notevole nel renderlo dinamico, con non poche complicazioni dal lato indicizzazione!

Ovviamente sarebbe umanamente impossibile ed impensabile allocare delle “risorse umane” per trascrivere a mano, ogni mese, TUTTE le pagine dei vari siti che compongono la websfera, questo lavoro viene quindi affidato a dei “ragni”.

Gli Spider (noti anche come Bot o Crawler) non sono ovviamente gli aracnidi che tutti conosciamo, ma sono dei programmi che “scavano” il web trascrivendo i contenuti trovati, in formato testuale, all’interno dei database dei vari motori di ricerca. Prima ho detto “ogni mese” perché ad esempio Google, il più importante motore di ricerca e portale al mondo (fonte Alexa: http://www.alexa.com/topsites) effettua con una cadenza quasi mensile la cosiddetta “Deep Search” nella quale ripercorre tutto il Web ricreando indici e pagerank. A seguito di questa grande scansione globale, per un periodo di 6-8 giorni, si verifica quella che tra gli addetti ai lavori è conosciuta come la “Google Dance” poiché in questi giorni i risultati delle Serp (ricerche organiche) cambiano continuamente, in base allo stato di avanzamento della creazione dei nuovi indici.

 serp

Google (e con lui anche gli altri principali motori di ricerca) effettuano anche una “Fresh Search” fatta quasi quotidianamente, nella quale aggiornano i contenuti già presenti nei loro indici.

Gli Spider accedendo al nostro sito, per prima cosa vanno a cercare il file Robots.txt che si trova (o dove dovrebbe trovarsi!) nella directory root , per controllare se esistono delle sezioni del nostro sito che NON vogliamo che vengano indicizzate.

Una volta istruiti i “ragni” intraprendono il loro infaticabile lavoro aggiornando i loro database e segnalando eventuali nuovi hyperlink al grande calderone delle pagine da visitare.

I file robots rappresentato un importante strumento da parte di un Webmaster per posizionarsi correttamente nelle Serp, facendo svolgere una ricerca selettiva e “proficua” ai motori di ricerca.

Di seguito gli spider più importanti:

 spiders

 

 

Di fatto i file Robots sono dei semplicissimi file di testo, se il vostro sito è stato creato con dei Cms come Joomla o Wordpress verrà generato automaticamente per presevare le aree interdette agli Spider.

E’ un sito fai da te? Nessun problema, la compilazione è semplicissima, ecco un esempio:

User-agent: *  

Disallow: /personale/ 

In questo caso asterisco “ * ” sta per tutti gli Spiders, altrimenti potete inserire i nomi della tabella che ho segnalato precedentemente (es. googlebot) per limitare l’accesso a determinate aree solo ad alcuni Crawler.

Ricordatevi, il primo presupposto per apparire nelle Serp di un motore di ricerca è che lui vi trovi e che possa indicizzare i vostri contenuti più importanti…

La seconda è che il vostro sito sia linkato dal maggior numero di siti possibili…linkate gente…linkate….  

Ti interessa un link gratuito da una directory con Pagerank 4???? Segnala il tuo sito su Zibaldone! La directory gratuita di Web 3.0 Notes!

Popularity: 1% [?]

Altri articoli interessanti:

Tags: ,
Non ci sono ancora commenti per questo post.
Aggiungi un commentoCrea un gravatar

* Name

* Email Address

Website Address

Puoi usare questi tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
Sponsors
Socializziamo!

AAA: Collaboratori cercasi
Se sei un appassionato di informatica e in particolar modo ti affascinano wordpress, photoshop e il seo, allora stiamo cercando proprio Te!
Web 3.0 Notes vuole crescere e sta cercando collaboratori seri che vogliano crescere insieme.
Ovviamente le collaborazioni saranno retribuite e la paternità dei post sarà sempre riconosciuta!
Contattateci pure per ogni info!
Web 3.0 Notes
Partners
Partners
Cerca nel blog
Progetti Amici

Categorie
Get Adobe Flash playerPlugin by wpburn.com wordpress themes