Date post: | 02-May-2015 |
Category: |
Documents |
Upload: | selvaggia-castelli |
View: | 213 times |
Download: | 0 times |
Università degli Studi G.D’AnnunzioChieti e Pescara
Seminario
MOTORI DI RICERCA
aprile 2011
maurizio gatto
Internet• ARPANET (1960 – 1970)• INTERNET 1983 (NFS network) 1985 (commerciale) 1989 (WWW - Tim Barners-Lee)
Web
– docuverse (T.H. Nelson, 1974, teorico ipertesto)• Universo organizzato dei documenti
– infosfera (L. Floridi, 2002, teorico filosofia dell’informazione)• Spazio semantico (documenti, agenti, operazioni)
Web
Hubs and Authorities (HITS algorithm) - 1998
Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano
autorevoli sorgenti di informazione per la query
hub: liste che contengono puntatori a pagine relative all’argomento della query
“Good hubs point to good authorities and vice versa”
Google nel 1998 progetta PageRank(brevettato nel 2001 US PTO Patent )
Web 2.0
– Riuso dei dati (e degli utenti)– Contributo del singolo utente (dati e servizi)– Architettura della “partecipazione“– Autorganizzazione dell’azione dal basso
Source: Internet World Search
Web 3.0
Risorse digitali
– Utilizzo delle risorse digitali• ipertestualità, accesso simultaneo,
delocalizzazione, ubiquità
– Risorse digitali• modificabili, replicabili, personalizzate, ambigue, obsolescenti, instabili, volatili
documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato, rappresentato tramite una grandezza fisica che assume valori binari ottenuti attraverso un processo di elaborazione elettronica
Motori di ricerca: perché– Consultare il web (docuverse)• Difficoltà di reperimento a causa dell’enorme numero
di informazioni non strutturate
– Navigare con i link• Partire da un punto e cercare i percorsi giusti
Utilizzare i motori di ricercasemplicità di utilizzo (intuitivo), con una query si ottengonorisultati “rilevanti”(o “suggerimenti” di ulterioriricerche a partire dai link suggeriti)
Motori di ricerca: funzioni• recupero informazioni dal web • indicizzazione delle informazioni• distribuzione agli utenti delle informazioni tramite query
sintattico
semantico
• realizzare profitto
Motori di ricerca: evoluzione
– Archie e Gopher (1990-1991)• Ricerca file in siti FTP
– Lykos, Infoseek, AltaVista, Excite (1994-1995)• Ricerca file in siti WWW
– Yahoo! (1994)• Acquisisce nel 2002 Inktomi, Overture, Altavista
– MSN (1995)• Accordo con Overture nel 2006• Dal 2006 cambia nome: Windows Live• Dal 2009 cambia nome: Bing
– Google (1997- sito 1999)• Numero ricerche giornaliere(!?):• 1999 500m; 2000 100mln; 2003 250mln; 2008 2mld 2010 3mld
Cronologia completa
Motori di ricerca: TopGoogleYahoo!Bing (ex Live Search ex MSN)
Motori di ricerca: Italia
Virgilio
Libero
Tiscali
Motori di ricerca: metamotori
Attingono i risultati da altri motori di ricerca e ne elaborano i risultati
Motori di ricerca: DMOZDMOZ (Open Directory Project)
Una directory NON un motore di ricerca
Motori di ricerca: dati (US)– 2008 (feb)
• Google 59,2%• Yahoo! 21,6%• Live 9,6%• Altri 9,5% (Ask, AOL)
– 2009 (feb)• Google 63,3%• Yahoo! 20,6%• Live/Bing 8,1%• Altri 8,0% (Ask, AOL)
– 2010 (feb)• Google 65,5%• Yahoo! 16,8%• Bing 11,5%• Altri 6,2% (Ask, AOL)
– 2011 (feb)• Google 64,9%• Yahoo! 17,3%• Bing 13,4%• Altri 4,4% (Ask, AOL)
Source: comscore.com
ITALIA (2009)
Google* 96,81%Bing 1,35%Yahoo! 1,22%Altri 1,12%
Source: StatCounter – GlobalStats
Motori di ricerca: dati (2010)
Motori di ricerca: dati (2010)
Motori di ricerca: dati (2010)
Motori di ricerca: moduli
Motori di ricerca: moduli
Motori di ricerca: gatherer
• Collezionare documenti nel web– Tipologia• extensive crawl, focused crawl, incremental crawl
– Problemi• dimensioni del web• quantità dei dati nel web• loop e “trappole”• costi (di banda e hardware)
– Soluzione• metodologie distribuite e fault-tolerant
Motori di ricerca: crawler
Motori di ricerca: crawler
1. Robots.txt (Robotstxt.org)
2. Nel codice di una pagina HTML <html><head>… <meta name="robots" content=“noindex,nofollow”>… </head>…
Perché alcune pagine non appaiono nei risultati dei motori di ricerca?
Funzionamento di un crawler
Motori di ricerca: indexing
• Analisi del contenuto testuale• Analisi dei contenuti multimediali• Informazioni sui links• Informazioni sul sito
Analisi dei documenti
Motori di ricerca: indexing
• ordina i documenti ricevuti dal crawler• crea l’indice (inverso) delle parole• immagazzina le informazioni recuperate in un database (o in database distribuiti)
Motori di ricerca: retrieval
• riceve le richieste (query) dal modulo search• recupera le informazioni nel/i database• fornisce le “risposte” al modulo search
Motori di ricerca: search• Riceve la richiesta dell’utente (query)• invia la query al modulo retrieval• recupera le “risposte” dal modulo retrieval• restituisce le “risposte” all’utente in forma
testuale e/o grafica• aggiunge risultati pay
Motori di ricerca: search
Motori di ricerca: search
Motori di ricerca: search
Ricorda: puoi utilizzare “ ” per ricerche a corrispondenza esatta + includi - escludi site: cerca in un dominio filetype: cerca un formato documento
Motori di ricerca: search
Motori di ricerca: le relazioni
http://www.bruceclay.it/searchenginerelationshipchart.htm
Motori di ricerca: le relazioni
http://www.ihelpyou.com/search-engine-chart.html
Motori di ricerca: le relazioni
http://www.search-this.com/search-engine-decoder/
Motori di ricerca: le relazioni
• Se cerchiamo “bonifica amianto” su– Google– Virgilio– Libero– Tiscali
Otteniamo gli stessi risultati (anche pay)
Motori di ricerca: specializzati
Elenco motori di ricerca
Motori di ricerca: news
• Google News Alerts http://www.google.com/alerts?hl=en Non una mailing list ma un servizio di Google (2003). Scegli la parola chiave e la frequenza della ricezione di una email contenente le ultime news (abstract e link) sull'argomento scelto (funziona anche per le news delle singole nazioni, http://www.google.it/alerts?hl=it )
• Utilizzare i motori di ricerca
Motori di ricerca: news• Google News Alerts
Università degli Studi G.D’AnnunzioChieti e Pescara
Grazie per l’attenzione
maurizio gatto