Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011...

Università degli Studi G.D’AnnunzioChieti e Pescara

Seminario

MOTORI DI RICERCA

aprile 2011

maurizio gatto

Internet• ARPANET (1960 – 1970)• INTERNET 1983 (NFS network) 1985 (commerciale) 1989 (WWW - Tim Barners-Lee)

Web

– docuverse (T.H. Nelson, 1974, teorico ipertesto)• Universo organizzato dei documenti

– infosfera (L. Floridi, 2002, teorico filosofia dell’informazione)• Spazio semantico (documenti, agenti, operazioni)

http://en.wikipedia.org/wiki/Docuverse

http://en.wikipedia.org/wiki/Infosphere

Web

Hubs and Authorities (HITS algorithm) - 1998

Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano

autorevoli sorgenti di informazione per la query

hub: liste che contengono puntatori a pagine relative all’argomento della query

“Good hubs point to good authorities and vice versa”

Google nel 1998 progetta PageRank(brevettato nel 2001 US PTO Patent )

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=/netahtml/PTO/srchnum.htm&r=1&f=G&l=50&s1=6,285,999.PN.&OS=PN/6,285,999&RS=PN/6,285,999

http://en.wikipedia.org/wiki/Infosphere

http://en.wikipedia.org/wiki/Pagerank

Web 2.0

– Riuso dei dati (e degli utenti)– Contributo del singolo utente (dati e servizi)– Architettura della “partecipazione“– Autorganizzazione dell’azione dal basso

Source: Internet World Search

Web 3.0

http://it.wikipedia.org/wiki/Web_3.0

http://it.wikipedia.org/wiki/Web_2.0

Risorse digitali

– Utilizzo delle risorse digitali• ipertestualità, accesso simultaneo,

delocalizzazione, ubiquità

– Risorse digitali• modificabili, replicabili, personalizzate, ambigue, obsolescenti, instabili, volatili

documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato, rappresentato tramite una grandezza fisica che assume valori binari ottenuti attraverso un processo di elaborazione elettronica

http://it.wikipedia.org/wiki/Documenti_digitali

Motori di ricerca: perché– Consultare il web (docuverse)• Difficoltà di reperimento a causa dell’enorme numero

di informazioni non strutturate

– Navigare con i link• Partire da un punto e cercare i percorsi giusti

Utilizzare i motori di ricercasemplicità di utilizzo (intuitivo), con una query si ottengonorisultati “rilevanti”(o “suggerimenti” di ulterioriricerche a partire dai link suggeriti)

Motori di ricerca: funzioni• recupero informazioni dal web • indicizzazione delle informazioni• distribuzione agli utenti delle informazioni tramite query

sintattico

semantico

• realizzare profitto

http://en.wikipedia.org/wiki/Semantic_search_engine

http://en.wikipedia.org/wiki/Search_engines

Motori di ricerca: evoluzione

– Archie e Gopher (1990-1991)• Ricerca file in siti FTP

– Lykos, Infoseek, AltaVista, Excite (1994-1995)• Ricerca file in siti WWW

– Yahoo! (1994)• Acquisisce nel 2002 Inktomi, Overture, Altavista

– MSN (1995)• Accordo con Overture nel 2006• Dal 2006 cambia nome: Windows Live• Dal 2009 cambia nome: Bing

– Google (1997- sito 1999)• Numero ricerche giornaliere(!?):• 1999 500m; 2000 100mln; 2003 250mln; 2008 2mld 2010 3mld

Cronologia completa

http://it.wikipedia.org/wiki/Motore_di_ricerca

Motori di ricerca: TopGoogleYahoo!Bing (ex Live Search ex MSN)

http://it.wikipedia.org/wiki/Google

http://it.wikipedia.org/wiki/Yahoo

Motori di ricerca: Italia

Virgilio

Libero

Tiscali

Motori di ricerca: metamotori

Attingono i risultati da altri motori di ricerca e ne elaborano i risultati

Motori di ricerca: DMOZDMOZ (Open Directory Project)

Una directory NON un motore di ricerca

Motori di ricerca: dati (US)– 2008 (feb)

• Google 59,2%• Yahoo! 21,6%• Live 9,6%• Altri 9,5% (Ask, AOL)

– 2009 (feb)• Google 63,3%• Yahoo! 20,6%• Live/Bing 8,1%• Altri 8,0% (Ask, AOL)

– 2010 (feb)• Google 65,5%• Yahoo! 16,8%• Bing 11,5%• Altri 6,2% (Ask, AOL)

– 2011 (feb)• Google 64,9%• Yahoo! 17,3%• Bing 13,4%• Altri 4,4% (Ask, AOL)

Source: comscore.com

ITALIA (2009)

Google* 96,81%Bing 1,35%Yahoo! 1,22%Altri 1,12%

Source: StatCounter – GlobalStats

Motori di ricerca: dati (2010)



Motori di ricerca: moduli

Motori di ricerca: moduli

Motori di ricerca: gatherer

• Collezionare documenti nel web– Tipologia• extensive crawl, focused crawl, incremental crawl

– Problemi• dimensioni del web• quantità dei dati nel web• loop e “trappole”• costi (di banda e hardware)

– Soluzione• metodologie distribuite e fault-tolerant

Motori di ricerca: crawler

Motori di ricerca: crawler

1. Robots.txt (Robotstxt.org)

2. Nel codice di una pagina HTML <html><head>… <meta name="robots" content=“noindex,nofollow”>… </head>…

Perché alcune pagine non appaiono nei risultati dei motori di ricerca?

Funzionamento di un crawler

Motori di ricerca: indexing

• Analisi del contenuto testuale• Analisi dei contenuti multimediali• Informazioni sui links• Informazioni sul sito

Analisi dei documenti

Motori di ricerca: indexing

• ordina i documenti ricevuti dal crawler• crea l’indice (inverso) delle parole• immagazzina le informazioni recuperate in un database (o in database distribuiti)

Motori di ricerca: retrieval

• riceve le richieste (query) dal modulo search• recupera le informazioni nel/i database• fornisce le “risposte” al modulo search

Motori di ricerca: search• Riceve la richiesta dell’utente (query)• invia la query al modulo retrieval• recupera le “risposte” dal modulo retrieval• restituisce le “risposte” all’utente in forma

testuale e/o grafica• aggiunge risultati pay

Motori di ricerca: search



Ricorda: puoi utilizzare “ ” per ricerche a corrispondenza esatta + includi - escludi site: cerca in un dominio filetype: cerca un formato documento


Motori di ricerca: le relazioni

http://www.bruceclay.it/searchenginerelationshipchart.htm


http://www.ihelpyou.com/search-engine-chart.html


http://www.search-this.com/search-engine-decoder/


• Se cerchiamo “bonifica amianto” su– Google– Virgilio– Libero– Tiscali

Otteniamo gli stessi risultati (anche pay)

Motori di ricerca: specializzati

Elenco motori di ricerca

Motori di ricerca: news

• Google News Alerts http://www.google.com/alerts?hl=en Non una mailing list ma un servizio di Google (2003). Scegli la parola chiave e la frequenza della ricezione di una email contenente le ultime news (abstract e link) sull'argomento scelto (funziona anche per le news delle singole nazioni, http://www.google.it/alerts?hl=it )

• Utilizzare i motori di ricerca

Motori di ricerca: news• Google News Alerts

Università degli Studi G.D’AnnunzioChieti e Pescara

Grazie per l’attenzione

maurizio gatto

Date post:	02-May-2015
Category:	Documents
Upload:	selvaggia-castelli
View:	213 times
Download:	0 times

Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011...

Documents