Più visibili coi motori di ricerca

I motori di ricerca sono uno strumento di uso ormai molto comune. Pochi, però, sanno dire come funzionino i siti come Virgilio, Arianna, Lycos o Yahoo. Tanto che, quando una azienda realizza il proprio sito Internet, non sempre riesce a renderlo visibile attraverso i motori di ricerca. Conoscere la (breve) storia di questi servizi e comprendere quali problemi affrontano i loro creatori ci può invece permettere di utilizzarne i servizi e di indirizzare i loro visitatori verso la nostra presenza sulla Rete.

Cosa sono e come funzionano

Il primo motore di ricerca è stato probabilmente Yahoo. Fondato nel 1994 da due studenti di Stanford, Jerry Yang e David Filo, Yahoo funziona come le pagine gialle. L'autore di un sito segnala ai responsabili del servizio la sua creazione. Nel giro di qualche giorno una persona dello staff di Yahoo visita il sito e lo osserva. Ogni sito viene classificato più o meno arbitrariamente in una categoria e listato insieme ai suoi simili.
L'esplosione del Web ha presto reso Yahoo un lavoro ciclopico. Ben presto i due fondatori si sono ritrovati a passare giornate di venti ore visitando e catalogando siti: intuendo l'importanza della loro opera, si sono ritirati dall'università e dedicati a tempo pieno alla loro creatura. Già nel 1996 Yahoo era diventata una impresa commerciale commercialmente in attivo, listava oltre 200.000 siti Internet e impiegava studiosi di ontologia per classificare i siti segnalati (per esempio, voi piazzereste il cinema sotto “intrattenimento” oppure “arte”? Yahoo ha scelto la prima classificazione).
I motori di ricerca più recenti vogliono essere più esaustivi di Yahoo e nel contempo impiegare meno manodopera. Esemplare è il caso di Altavista: in quel caso alla base del sistema si trova un motore di base dati. Con frequenza settimanale, il sistema fa partire un processo che va a visitare ciascun sito conosciuto. Questo processo viene chiamato in gergo “spider” (cioè “ragno”: un gioco di parole dovuto al fatto che esso percorre il web, cioè la “ragnatela”). Lo spider legge la pagina principale del nostro sito e cerca di catalogarla; strada facendo incontra riferimenti ipertestuali, i link, ad altre pagine del nostro sito; di seguito leggerà anche quelle pagine. Finisce così per visitare tutte le pagine del sito.
Anche in questo caso perché il gioco funzioni è necessario che qualcuno segnali ad Altavista che un nuovo sito è nato, di modo che uno spider venga inviato a visitarlo per la prima catalogazione. La necessità non è ferrea, come nel caso di Yahoo, perché Altavista può facilmente scoprire siti che non le sono mai stati segnalati: quando uno spider incontra un link a un sito sconosciuto può facilmente inviare un suo fratello a visitarlo. Un sito neonato, però, tipicamente contiene molti riferimenti ai siti pre-esistenti ma non viene puntato da nessun altro sito; questo significa che Altavista ne scoprirà autonomamente l’esistenza solo dopo parecchie settimane, quando uno dei siti più vecchi per qualche motivo comincerà a far riferimento al nuovo arrivato.

Vita da ragni

Scrivere il codice di uno spider efficiente, secondo gli addetti ai lavori, è un’arte e non una scienza. Lo spider dovrebbe idealmente capire di cosa parli la pagina, in modo che le ricerche su quell’argomento possano scoprirla. Il trucco più semplice consiste nel concentrarsi sulle parole più lunghe (di solito sono quelle più significative) e su quelle più ripetute (indicano che si sta sviscerando quel concetto da più punti di vista). Applicando semplicemente questi metodi, però, lo spider non andrebbe lontano: gli avverbi lo confonderebbero e passerebbe molto tempo a catalogare parole frequenti ma poco significative come “e”, “dunque”, “sono”. Bisogna allora cercare di scoprire qual è la lingua in cui la pagina è scritta e applicare qualche conoscenza del suo vocabolario.
Le cose si complicano ancora perché c’è chi cerca di approfittarsi del meccanismo. I siti pornografici, che oggi macinano un ottavo dei profitti complessivi di Internet, per massimizzare la loro possibilità di venire segnalati dai motori di ricerca hanno presto cominciato a riempire le loro pagine con un ampio vocabolario ginecologico ripetuto più e più volte — nel tentativo di scalare le vette delle classifiche e venire segnalati per primi.
C’è poi il problema di riconoscere quali pagine siano cambiate dalla visita precedente: ma in questo caso è sufficiente appoggiarsi al protocollo HTTP, le fondamenta del Web. La data di creazione di ogni pagina è una domanda che lo spider può fare direttamente al server che ospita il sito.

Revisione al motore

Armati con questi pochi concetti possiamo decidere cosa fare per far apparire un nostro sito nei motori di ricerca. La segnalazione, come abbiamo visto, è fondamentale e irrinunciabile. La tabella in questa pagina elenca tutti i principali motori di ricerca e può funzionare come una prima “lista della spesa”.
Ci sono poi alcune aggiunte che dovremmo fare a ogni pagina per facilitare la vita allo spider e spingerlo nella direzione che preferiamo. Tanto per cominciare, nelle moderne pagine Web accade spesso che i titoli vengano realizzati in grafica, per abbellirli e farli risaltare all’occhio. Liberissimi: ma dobbiamo ricordare che uno spider può soltanto leggere il testo e non tocca la grafica (lo stesso, vorremmo ricordare, vale per i portatori di handicap alla vista che usano sistemi di sintesi vocale per farsi leggere le pagine Web). Quindi, tutte le informazioni devono essere fornite anche in forma testuale, specialmente indici e titoli.
Bisogna poi mettere le mani sul codice HTML, come spiegheremo tra poco.

La descrizione con cui Altavista presenta il mio sito è quella che ho scritto io stesso e che ho inserito nel meta tag “description”

I meta tag

Tutte le pagine Web sono scritte nel linguaggio HTML. Lo HTML divide le pagine in due parti: l’intestazione (head) e il corpo (body). Alcune righe di codice HTML inserite nella head di ciascuna pagina aiutano lo spider a classificarla. Non solo: tutti i motori di ricerca, con la notevole eccezione di Excite, in risposta alle richieste dei visitatori restituiscono per prime le pagine che contengono queste specifiche.
Le descrizioni di pagina sono normalmente invisibili ai visitatori e sono conosciute come “meta-tag”. La sintassi tipica è:
<META HTTP-EQUIV="di cosa stiamo parlando" CONTENT="valore che segnialiamo allo spider">
Per esempio, per indicare che la nostra pagina è scritta in italiano dovremo aggiungere il tag:
<META HTTP-EQUIV="Content-language" CONTENT="it-IT>
Altri valori di content che potrebbero servire sono en-GB per l’inglese britannico, en-US per l’inglese americano.
Il secondo meta tag che consigliamo di inserire sempre in ogni pagina Web di ogni sito è quello relativo alle parole chiave. Serve ad elencare tutti gli argomenti trattati nella pagina. Per esempio, se realizzassimo una pagina Web contenente il testo di questo articolo scriveremmo:
<META NAME="keywords" CONTENT="motori di ricerca, meta tag, spider, Yahoo, Altavista">
Il motore di ricerca allora consiglierà la nostra pagina a chiunque faccia una ricerca di quegli argomenti.
Infine, altro meta tag irrinunciabile è la descrizione della pagina:
<META NAME="description" CONTENT="Qui metto una o due righe di testo con la descrizione della pagina e del suo contenuto.">
Il motore di ricerca userà il testo da me fornito quando segnala la mia pagina al visitatore. Se il meta tag description manca, invece, il motore di ricerca si limita a fornite le prime parole del testo della pagina, che spesso sono insufficienti a dare il senso e altrettanto spesso vengono troncate per motivi di spazio.

Robots.txt
In alcuni casi particolari vogliamo escludere parti del nostro sito dalla visione del pubblico. È il caso, per esempio, delle sezioni riservate agli agenti commerciali o ai rivenditori che spesso realizzano le imprese. In questo caso ci è sufficiente realizzare un piccolo documento di testo, chiamato robots.txt, e piazzarlo sul server Web nella stessa directory dei documenti che vogliamo mantenere privati.
Il file di testo deve cominciare con la riga “user-agent: *”, per indicare che si rivolge a tutti gli spider, e proseguire con un elenco delle pagine da non visitare. Per esempio, un documento robots.txt potrebbe svolgersi così:
User-agent: *
Disallow: /pagina_da_escludere.html
Disallow: /directory_da_escludere/

E se vogliamo che uno spider escluda una sola pagina ma prenda in considerazione le successive? In questo caso dobbiamo ancora una volta appoggiarci ai meta tag. Quello che fa al caso nostro è:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
Significa: questa pagina non deve apparire tra i risultati delle ricerche, ma sei autorizzato a leggerla per cercare i link.

Originariamente pubblicato in data 30/11/1998

Più visibili coi motori di ricerca

Cosa sono e come funzionano

Vita da ragni

Revisione al motore

I meta tag

Articoli in evidenza