+ All Categories
Home > Education > 9. Ricercare nel web (Parte I)

9. Ricercare nel web (Parte I)

Date post: 29-Nov-2014
Category:
Upload: roberto-polillo
View: 574 times
Download: 0 times
Share this document with a friend
Description:
Slides dalle lezioni del corso di Strumenti e applicazioni del Web per il corso di laurea magistrale in Teoria e tecnologia della comunicazione - Università di Milano Bicocca (prof. R.Polillo) - Lezione del 26 marzo 2014
23
Edizione 2013-14 Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Roberto Polillo
Transcript
Page 1: 9. Ricercare nel web (Parte I)

Edizione 2013-14

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Corso di Strumenti e applicazioni del Web

9. Ricercare nel Web (Parte I)

Roberto Polillo

Page 2: 9. Ricercare nel web (Parte I)

Una visualizzazione [di una parte] del web

La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/

R.Polillo - Marzo 2014

3

Page 3: 9. Ricercare nel web (Parte I)

4

R.Polillo - Marzo 2014

Una visualizzazione [di una parte] del web

Page 4: 9. Ricercare nel web (Parte I)

R.Polillo - Marzo 2014

5

Una visualizzazione [di una parte] del web

Page 5: 9. Ricercare nel web (Parte I)

Come trovare l'informazione in rete

DirectoriesIndici strutturati di argomenti (gestiti da una redazione)

WikipediaEnciclopedia collaborativa

Motori di ricercaQuery Risultati

Motori semanticiwww.wolframalpha.com, …

Sistemi di Q&A socialeYahoo! Answer, …

EsplorazioneBrowsing, serendipity

R.Polillo - Marzo 2014

6

Page 6: 9. Ricercare nel web (Parte I)

Web directories7

Storicamente, il primo strumento di ausilio alle ricerche nel Web

Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"

Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo

http://en.wikipedia.org/wiki/Web_directory

R.Polillo - Marzo 2014

Page 7: 9. Ricercare nel web (Parte I)

Tassonomia8

Emporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic) Ammaestratid) Lattonzolie) Sirenef) Favolosig) Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik) Disegnati con un pennello finissimo di peli di

cammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.

R.Polillo - Marzo 2014

Raggruppamento di oggetti in classi, secondo qualche criterio

taxis=ordine nomos=regola

Ogni tassonomia è arbitraria, e dipende dagli obiettivi

Page 8: 9. Ricercare nel web (Parte I)

Yahoo! (http://dir.yahoo.com)9

R.Polillo - Marzo 2014

- Nasce come “La guida al WWW di Jerry e David”, nel 1994

- Qui la home del 1996, da www.archive.org

http://en.wikipedia.org/wiki/Internet_Archive

Page 9: 9. Ricercare nel web (Parte I)

The Open Directory Project (ODP)10

Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/ Directory gratuita, aperta e multilingua Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e

manutenuta da una comunità di editor volontari http://en.wikipedia.org/wiki/Open_Directory_Project

R.Polillo - Marzo 2014

Page 10: 9. Ricercare nel web (Parte I)

Domoz vs Yahoo!

R.Polillo - Marzo 2014

11

Dmoz Yahoo!

Page 11: 9. Ricercare nel web (Parte I)

Wikipedia come strumento di ricerca12

Wikipedia è un formidabile strumento di ricerca e accesso al web

Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato

Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici

(http://en.wikipedia.org/wiki/Portal:Contents/Portals)

R.Polillo - Marzo 2014

Page 12: 9. Ricercare nel web (Parte I)

Serendipità13

Cerco una cosa e ne trovo un'altra Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di

Serendip” (Serendip è l'antico nome di Sri Lanka) Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere

l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.html

R.Polillo - Marzo 2014

Page 13: 9. Ricercare nel web (Parte I)

14 R.Polillo - Marzo 2014

Page 14: 9. Ricercare nel web (Parte I)

www.stumbleupon.com 16

to stumble: inciampare, scoprire per caso

È una discovery engine di pagine web, fondato in Canada nel 2001

Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili

Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:

R.Polillo - Marzo 2014

Page 15: 9. Ricercare nel web (Parte I)

Motori di ricerca per il Web

Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web

Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)

La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati

R.Polillo - Marzo 2014

17

Page 16: 9. Ricercare nel web (Parte I)

Motori di ricerca

Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google- Dal 1998

Baidu- dal 2000, cinese

Yahoo!- Con motori esterni (dal 2009 "Powered by Bing")

Bing- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)

R.Polillo - Marzo 2014

18

Page 17: 9. Ricercare nel web (Parte I)

Search engine market share

R.Polillo - Marzo 2014

19

Fonte: http://www.netmarketshare.com

Dic 2013, solo desktop

Page 18: 9. Ricercare nel web (Parte I)

Motori di ricerca: struttura

R.Polillo - Marzo 2014

20

Interfaccia Query processing

Rankingdei risultati

Query

Risultati(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler

IndicizzatoreCrawler

Richieste

Pagine web

Pagine web

WWW

Back-end process

Page 19: 9. Ricercare nel web (Parte I)

Web crawling

I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti

Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)

L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)

Non tutto il Web è accessibile ai crawler

R.Polillo - Marzo 2014

22

Page 20: 9. Ricercare nel web (Parte I)

robots.txt: esempio

www.domain.com

R.Polillo - Marzo 2014

23

/

robots.txt

utenti

foto

aboutUser-agent: GoogleDisallow /utenti/fotoAllow: *Crawl-delay: 20 sec

Page 21: 9. Ricercare nel web (Parte I)

Deep vs surface Web

Non tutto il Web è accessibile ai motori di ricerca Il Web invisibile ("deep Web") è parecchi ordini di

grandezza più vasto del Web visibile ("surface Web") Deep Web, esempi:

Pagine "vietate" dai Web server (robots.txt) Pagine generate dinamicamente a fronte di query o di input forniti

attraverso form Pagine senza link entranti Pagine accessibili tramite registrazione e login Ecc.

R.Polillo - Marzo 2014

24

Page 22: 9. Ricercare nel web (Parte I)

Struttura del web: uno studio

Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html

17 million nodes

25

R.Polillo - Marzo 2014

Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro

Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro

One can pass from any node of IN through SCC to any node of OUT.  Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC.  It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to

a portion of OUT without touching SCC.

Page 23: 9. Ricercare nel web (Parte I)

Tipi di query

InformativaObiettivo: trovare un'informazione

NavigazionaleObiettivo: trovare una pagina web, che conosco già

RisorsaObiettivo: trovare una risorsa (non informativa) disponibile sul web

Il risultato è di solito (ma non sempre!) una lista di link a pagine web

Evoluzione: dal contenitore (anche) al contenuto

R.Polillo - Marzo 2014

26


Recommended