9. Ricercare nel web (Parte I)

Edizione 2013-14

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Corso di Strumenti e applicazioni del Web

9. Ricercare nel Web (Parte I)

Roberto Polillo

Una visualizzazione [di una parte] del web

La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/

R.Polillo - Marzo 2014

3

http://www.caida.org/tools/visualization/walrus/

4




5


Come trovare l'informazione in rete

DirectoriesIndici strutturati di argomenti (gestiti da una redazione)

WikipediaEnciclopedia collaborativa

Motori di ricercaQuery Risultati

Motori semanticiwww.wolframalpha.com, …

Sistemi di Q&A socialeYahoo! Answer, …

EsplorazioneBrowsing, serendipity


6

http://www.wolframalpha.com/

Web directories7

Storicamente, il primo strumento di ausilio alle ricerche nel Web

Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"

Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo

http://en.wikipedia.org/wiki/Web_directory


http://en.wikipedia.org/wiki/Web_directory

Tassonomia8

Emporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic) Ammaestratid) Lattonzolie) Sirenef) Favolosig) Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik) Disegnati con un pennello finissimo di peli di

cammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.


Raggruppamento di oggetti in classi, secondo qualche criterio

taxis=ordine nomos=regola

Ogni tassonomia è arbitraria, e dipende dagli obiettivi

Yahoo! (http://dir.yahoo.com)9


- Nasce come “La guida al WWW di Jerry e David”, nel 1994

- Qui la home del 1996, da www.archive.org

http://en.wikipedia.org/wiki/Internet_Archive

http://dir.yahoo.com/

http://www.archive.org/

The Open Directory Project (ODP)10

Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/ Directory gratuita, aperta e multilingua Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e

manutenuta da una comunità di editor volontari http://en.wikipedia.org/wiki/Open_Directory_Project


Domoz vs Yahoo!


11

Dmoz Yahoo!

Wikipedia come strumento di ricerca12

Wikipedia è un formidabile strumento di ricerca e accesso al web

Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato

Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici

(http://en.wikipedia.org/wiki/Portal:Contents/Portals)


Serendipità13

Cerco una cosa e ne trovo un'altra Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di

Serendip” (Serendip è l'antico nome di Sri Lanka) Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere

l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.html


14 R.Polillo - Marzo 2014

www.stumbleupon.com 16

to stumble: inciampare, scoprire per caso

È una discovery engine di pagine web, fondato in Canada nel 2001

Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili

Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:


Motori di ricerca per il Web

Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web

Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)

La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati


17

Motori di ricerca

Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google- Dal 1998

Baidu- dal 2000, cinese

Yahoo!- Con motori esterni (dal 2009 "Powered by Bing")

Bing- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)


18

Search engine market share


19

Fonte: http://www.netmarketshare.com

Dic 2013, solo desktop

Motori di ricerca: struttura


20

Interfaccia Query processing

Rankingdei risultati

Query

Risultati(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler

IndicizzatoreCrawler

Richieste

Pagine web

Pagine web

WWW

Back-end process

Web crawling

I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti

Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)

L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)

Non tutto il Web è accessibile ai crawler


22

robots.txt: esempio

www.domain.com


23

/

robots.txt

utenti

foto

aboutUser-agent: GoogleDisallow /utenti/fotoAllow: *Crawl-delay: 20 sec

Deep vs surface Web

Non tutto il Web è accessibile ai motori di ricerca Il Web invisibile ("deep Web") è parecchi ordini di

grandezza più vasto del Web visibile ("surface Web") Deep Web, esempi:

Pagine "vietate" dai Web server (robots.txt) Pagine generate dinamicamente a fronte di query o di input forniti

attraverso form Pagine senza link entranti Pagine accessibili tramite registrazione e login Ecc.


24

Struttura del web: uno studio

Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html

17 million nodes

25


Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro

Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro

One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to

a portion of OUT without touching SCC.

Tipi di query

InformativaObiettivo: trovare un'informazione

NavigazionaleObiettivo: trovare una pagina web, che conosco già

RisorsaObiettivo: trovare una risorsa (non informativa) disponibile sul web

Il risultato è di solito (ma non sempre!) una lista di link a pagine web

Evoluzione: dal contenitore (anche) al contenuto


26

Date post:	29-Nov-2014
Category:	Education
Upload:	roberto-polillo
View:	574 times
Download:	0 times

9. Ricercare nel web (Parte I)

Education