Post on 18-Jan-2015
description
transcript
Sistemi Di Elaborazione Dell’informazione
Dott. Antonio Calanducci
Lezione V: Google Web SearchCorso di Laurea in Scienze della Comunicazione
Anno accademico 2009/2010
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
• 1995: incontro di Larry Page con Sergey Brin alla Stanford University (CA)
• 1996: i due iniziano a lavorare su BackRub
- motore di ricerca basato sull’analisi dei link
• 1998: comprano una serie di hard disk d’occasione
- primo server di Google (Lego case)
- Andy Bechtolsheim (Sun co-founder) stacca un assegno di $100,000 => nasce Google, Inc.
Storia di Google
2
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Storia di Google• Primo sede: garage di un amico a Menlo Park (CA) - 1 impiegato
• Passaparola su Internet
- interfaccia minimalista
- ricerche pertinenti
- “Mi sento fortunato”
• Feb 1999: nuova sede a Palo Alto (8 impiegati)
- $25,000,000 di finanziamento
• Set 1999: nuova sede a Mountain View (40 impiegati)
• Dic 2007: circa 20000 dipendenti
• http://www.google.com/corporate/history.html
3
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Google laboratory• Continuo miglioramento dei servizi esistenti e aggiunta
di nuovi
• Oltre ai servizi Web:
- nuovo browser: Google Chrome
- Google Earth, Sketch Up, Android OS
- Android e Google Phone (Nexus One)
- http://www.project10tothe100.com/intl/IT/index.html
- 10 milioni di dollari per idee originali
- piani per installare i propri server in mezzo al mare!!!
4
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Origine del termine Google• to google = “fare una ricerca sul web”
• etimologia:
- googol (un 1 seguito da 100 zeri)
- goggles: “binocolo” --> guardare la rete da vicino
- formula magica africana, buon auspicio per la caccia
5
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Ricerca Web• Il più popolare “motore di ricerca” (search engine)
• disponibile in 118 lingue su 162 domini nazionali
• Interfaccia sobria ed essenziale
- la versione statunitense (www.google.com) è la più aggiornata
- versione italiana (www.google.it) attiva dal 15 settembre 2002
• Demo: Analisi interfaccia principale di www.google.it
6
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Loghi celebrativi• In occasioni di eventi speciali ed eventi storici:
- Natale, 1 aprile, Thanksgiving, 1st of the year, etc..
- olimpiadi, festa nazionale della bastiglia, etc..
• disegnati da Dennis Hwang
• primo doodle (=disegnino, ghirigoro): agosto 1998, in occasione del Burning Man Festival (Nevada)
• http://www.google.com/logos/
• http://www.doodlesource.com/
7
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Ricerca di base• chiavi di ricerca (keywords) nel campo ricerca
• “Mi sento fortunato” => reindirizzamento al primo risultato
• Risultati:
- riepilogo (numero, tempo di esecuzione)
- Titolo
- Breve testo con keywords in grassetto
- URL, data e dimensione
- links a “Copia cache” e “Pagini Simili”
• Il “suggeritore”: correttore lessicale8
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Il PageRank• Successo di Google: pertinenza dei risultati
• Algoritmo di classificazione delle pagine in base all’importanza (indice di popolarità, rango)
- classifiche di rilevanza -> determina la posizione nei risultati di una ricerca
• Tecnologia brevettata da Google Inc
• PageRank definito per singola pagina
• “Democrazia” nel web: ogni link verso una pagina è come un “voto” in una elezione
- numero di link (di “voti”)
- “importanza” della pagina web che ha assegnato il voto9
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
PageRank e risultati• Più link verso una determinata pagina, più alto è il PageRank
• simile al meccanismo citazioni articoli scientifici
• PageRank espresso in decimi
• conoscere il valore di PageRank di una pag:
- Google Toolbar o www.prchecker.info
• Rilevanza nei risultati:
- integrazione di PageRank con numero di occorrenze delle chiavi di ricerca nella pagina (e in quelle collegate ad essa)
• Sistema difficile da “hackerare” dai webmasters
• I clienti di Google non possono salire di posizione10
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Indicizzazione e cache• Google archivia le pagine analizzate sui propri server
giornalmente (cache)
• Ricerca nella cache:
- utile nel caso in cui il server che ospita una data pagina non risulta più accessibile
- cons: non è aggiornata il real time
• Demo
11
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Operatori ricerca• Case insensitive: non c’è distinzione tra lettere minuscole e
maiuscole
• Operatore AND (automatico)
- cerca pagine che contengono TUTTI i termini, tenendo conto dell’ordine
• Operatore OR
- cerca pagina che contengono ALMENO uno dei termini
• Operatore +
- esclusione automatica di parole e carattere d’uso comune (singole cifre e lettere, preposizioni, “dove”/”quando”)
- usare “+” per una ricerca esplicita
-12
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Operatori ricerca• Operatore “-”
- esclude uno o più termini dai risultati
- es: televisione -satellitare
• Operatore virgolette (“”)
- ricerca esatta della frase tra virgolette
- es: “Mario Rossi”
• Operatore asterisco (*)
- termine jolly, in sostituzione di qualsiasi termine all’interno di una frase
- es: mi * di immenso13
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Composizione degli operatori• Gli operatori possono concatenati per la creazione di
complesse interrogazioni:
- es: televisione “domenica sportiva” -calcio
14
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Domini delle ricerche• Opzione “pagine in Italiano”
- solo pagine il cui contenuto è scritto nella ns lingua
• Opzione “pagine provenienti da: Italia”
- pagine redatte in Italiano su server con dominio .it
• Opzione “Cerca tra i risultati”
- affina ulteriormente la ricerca, filtrando i risultati correnti
- applicazione di un AND 15
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Ricerca avanzata• http://www.google.it/advanced_search?hl=it
• Campi “Trova risultati”: semplificano l’uso degli operatori AND, “”, OR, -
• Pagine redatte in una data lingua e situate in un dato paese
• Formato file: permette di includere/escludere alcuni formati di files dai risultati della ricerca (DOC, PDF, PPT, XLS, RTF, ...)
• Data: pagine aggiornate nelle ultime 24 ore, ultima settimana, ultimo mese, ultimo anno
16
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Ricerca avanzata• Cerca in: consente di specificare se cercare le chiavi di
ricerca nel titolo, nel corpo, nell’indirizzo, nei collegamenti, ovunque nella pagina
• Dominio: ricerca all’interno di un dato sito o dominio
• Diritti di utilizzo: in base alla licenza (Creative Commons) di utilizzo:
- utilizzati e condivisi/modificati gratuitamente (e anche a scopo commerciale)
• SafeSearch: filtro per contenuti espliciti
17
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Ricerca avanzata• Terza sezione della ricerca avanzata:
- possibilità di fornire una URL
• Pagine simili: pagine apparteneti allo stesso argomento
• Collegamenti: pagine che contengono collegamenti alla pagina di cui viene fornito la URL
- verificare chi mi sta “linkando”
18
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Funzioni speciali• Calcolatrice:
- 5+2*2
- quanto è 1 km in miglia?
- converti 2 metri in piedi
- 3 minuti in secondi
- quanti mesi ci sono in 4 anni?
• Conversione di unità
- 3 piedi in metri
- 16 gradi celsius in fareneith
19
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Funzioni speciali• Conversione di valute
- 10 USD in euro
- converti 5 euro in pesos messicani
• Meteo
- meteo catania
• Quotazioni di borsa
- AAPL, CSCO
• Risultati sportivi, programmazione film locali, ricerca locale
- AC Milan, film Catania, pizzerie a Catani
20
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Operatori avanzati• operatore site:
- limita la ricerca ad un dominio o sito specifico
• operatore link:
- tutte le pagine che dispongono di un collegamento al sito stesso
• operatore related:
- un elenco di pagine considerate “simili”
• operatore filetype:
- restringe la ricerca ad un solo tipo di file21
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Operatori avanzati• operatore inurl, allinurl:
- una (inurl) chiave di ricerca contenuta nella URL o tutte le chiavi (allinurl)
• operatore intitle, allintitle:
- come sopra ma riferito al title di una pagina
• operatore cache:
- ottiene la copia cache di una pagina
• operatore info:
- restituisce tutte le informazione che google conosce sulla pagina indicata dopo l’operatore
• Per approfondimenti sugli operatori:
- http://www.googleguide.com/advanced_operators.html22
wdwdwdwdwdw
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010
Preferenze di Google• Accessibili da “Impostazioni di ricerca”
• Lingua dell’interfaccia
• Lingua della ricerca
• Filtro SafeSearch
- restrizioni contenuti espliciti sessuali
• Numero di risultati
- risultati per pagina (10/20/30/50/100)
• Finestra dei risultati
• Proposta suggerimenti23