Date post: | 07-May-2015 |
Category: |
Internet |
Upload: | angelo-dambrosio |
View: | 151 times |
Download: | 0 times |
ANATOMIA
DI UN
MOTORE DI
RICERCA
INFORMAZIONE
Ricercabile
Era Digitale
Internet è Grande!
14.3 Trilioni – pagine attive
672,000,000,000 Gigabytes di dati
Motori di Ricerca
Componenti
ComponentiCRAWLER
SINDEX
SERPQUERIES
Crawlers
Impossibile fare una Live Search
Pre indicizzazione con i Crawlers
Crawlers
Internet è come una ragnatela
Google indicizza 48 miliardi di pagine
Bing 16 miliardi di pagine
I crawler percorrono
Internet passando da
link a link
Il crawler categorizza le pagine trovate
- Estrae le parole
chiave (no stop-
words)
- Varie meta
informazioni
- Dati tecnici della
pagina
- Dati stilistici
Etc…
Crawlers
Immagazzinamento e Strutturazione
Index
Indice Inverso
Index
Docs:1. Le volpi scappano dai cani.
2. La volpe ha il pelo rosso.
3. Cani da caccia.
Estrazione e
Stemmingvolpe
cane
pelo
rosso
caccia
scappare
Indice Inverso
Index
Key Doc
volpe 1, 2
cane 1, 3
pelo 2
rosso 2
caccia 3
scappare 1
Estrazione e
Stemmingvolpe
cane
pelo
rosso
caccia
scappare
Parole da cercare dentro l’indice
Queries
Singolarmente o in
congiunzione
con operatori Booleani:
AND, OR, NOT
Queries
Key Doc
volpe 1, 2
cane 1, 3
pelo 2
rosso 2
caccia 3
scappare 1
Query:
“volpe”: 1, 2
“Cani OR volpi”: 1, 2, 3
“Cani volpi”: 1
“Cani -volpi”: 3
SERP
SERP
Search Engine Result Page
SERP
Ranking
SERP
Ranking: Tf-idf
SERP
Term Frequency (Tf) = ni,j/dj
Inverse Document Frequency (idf) = log(D/dt)
Tf-idf = Tf x idf
Ranking: Page Rank
SERP
Media pesata del Page Rank delle pagine referenti
Ranking: Page Rank
SERP
Algoritmi moderni:
SERP
- Velocità di caricamento
- Correttezza e velocità del codice
- Correttezza grammaticale
- User Profiling (check out DuckDuckGo.com)
- Etc…
Potenti e segreti
Esempi
Concludendo…
Grazie e…
Buona
Ricerca!