Post on 17-Mar-2016
description
transcript
Ricerca DI informazioni
in internet
Cinzia Bocchi
03/03/2013
1
Introduzione
La vasta dimensione del Web e la sua crescita esponenziale causano non pochi problemi
a chi tenta di accedere alle informazioni di interesse. Gli strumenti di ricerca attualmente
disponibili, nonostante il miglioramento degli algoritmi, presentano ancora numerose
limitazioni.
In primo luogo, si stima che i motori di ricerca riescano a censire non più di un terzo delle
pagine web dei normali siti internet (dati 2010); gran parte dell’immenso patrimonio
di materiale memorizzato in centinaia di banche dati on-line rimane sommerso.
In secondo luogo, l’attuale dinamicità della conoscenza, pesantemente influenzata dalla
condivisione in rete, determina il problema della frammentazione e della obsolescenza, a
breve termine, delle informazioni.
Inoltre, i motori di ricerca tradizionali, basandosi prevalentemente sulla ricerca per parole
chiave, non sono esenti da fenomeni di omonimia e polisemia. Omonimia e polisemia
possono influire negativamente sugli esiti di una ricerca.
Un ulteriore problema è l’attendibilità delle fonti consultate. Uno studio, condotto da W.
Russell Neuman, e pubblicato sulla rivista statunitense The Information Society, ha
mostrato che la maggioranza delle persone intervistate si dichiara soddisfatta e apprezza
la quantità e la varietà di informazioni disponibili in rete e non si sente particolarmente
oppressa dal sovraccarico di informazioni (information overload). I principali fattori di
frustrazione sono, nelle dichiarazioni delle persone, il sensazionalismo e la partigianeria, la
parzialità, crescente di alcuni canali televisivi, le distrazioni causate da social network
(Facebook e Twitter) che veicolano informazioni non richieste e la difficoltà di distinguere
l’informazione attendibile e professionale da quella che non lo è.
Infine, un altro studio, condotto da Borchuluun Yadamsuren della University of Missouri
School of Journalism, evidenzia come le persone molto spesso vengano a contatto con le
notizie in maniera del tutto casuale (serendipity) mentre sono impegnate in altre attività di
ricerca. Tale situazione, se da un lato rappresenta una opportunità per l’accrescimento
della conoscenza, è causa di distrazione e allontana l’utente dall’obiettivo informativo che
si era prefissato.
Alla luce di quanto è stato detto, si può affermare che attualmente il vantaggio competitivo
non risiede nel conoscere di più ma nel sapere come e dove procurarsi l’informazione e
nel capire i nessi fra i frammenti che ci pervengono dai molteplici canali di distribuzione.
2
L’unico modo per gestire il problema dell’information overload nell’immediato ma anche e
soprattutto nel futuro è una mirata attività di formazione che possa fornire a tutti i cittadini
la capacità di apprendere in maniera autonoma, di cercare e integrare le informazioni in
rete, per poterle usarle nei contesti di interesse.
Strumenti di ricerca tradizionali
Gli strumenti più comunemente utilizzati per ricercare informazioni in Internet sono i motori
di ricerca e le directory.
I motori di ricerca (MdR) si basano sull’analisi del contenuto dei documenti presenti
in rete, che vengono periodicamente visitati da moduli software particolari, denominati
spider o crawler. L’analisi del contenuto dei documenti è realizzato mediante la tecnica
delle parole chiave e il risultato dell’analisi (indicizzazione) viene memorizzato in enormi
archivi che specificano, per ogni parola incontrata dallo spider, l’elenco delle pagine che la
contengono.
I MdR sono molto semplici da utilizzare ma spesso forniscono risultati poco soddisfacenti
a causa dei fenomeni di polisemia (una parola con più significati diversi – es. processo) e
di sinonimia (più parole con lo stesso significato – es. capacità, abilità, competenza).
Inoltre, i MdR forniscono i risultati non ordinati in base al significato, costringendoci così a
scorrere decine di pagine prima di trovare ciò che stiamo cercando.
Il MdR più utilizzato al mondo, che garantisce risultati apprezzabili è Google Search -
www.google.com. Esistono altri MdR molto utilizzati come Bing - it.bing.com, Yahoo! -
it.yahoo.com, Ask - it.ask.com, anche se Google è leader del settore.
Le directory differiscono dai MdR perché sono create e gestite da operatori umani.
Una directory è costituita da una raccolta di link, suddivisi per argomenti e spesso
organizzati in categorie gerarchiche. Solitamente è presente anche un motore che ricerca
automaticamente le categorie rilevanti all’interno della directory. L’inconveniente è quello
di non trovare la categoria adatta ai propri bisogni. Una directory web interessante è
l’Open Directory Project (ODP) - www.dmoz.org, di proprietà della Time Warner e
mantenuta da una comunità virtuale di redattori volontari.
3
Classificazione dei motori di ricerca
A. MdR orizzontali generalisti
I MdR generalisti non consentono di eseguire ricerche su argomenti specifici ma
conducono la ricerca in molti ambiti differenziati. La conseguenza è che le risposte
ottenute riguardano singoli argomenti, non correlati. Le ricerche tramite MdR generalisti il
più delle volte sono infruttuose perché, a fronte di una specifica richiesta, vengono
individuati migliaia o milioni di siti comprendenti anche argomenti non pertinenti.
Spesso i MdR orizzontali offrono strumenti di ricerca avanzata che permettono di
esprimere le richieste in modo più dettagliato, ma che non risolvono il problema
dell’organizzazione delle informazioni ottenute, che deve essere svolta manualmente.
B. MdR verticali per contenuti specifici
I MdR verticali tematici, al contrario dei MdR orizzontali, effettuano ricerche su uno
specifico argomento. I risultati forniti sono già organizzati e soddisfano maggiormente il
bisogno informativo dell’utente.
C. MdR su media costruiti da utenti
Tali MdR effettuano le ricerche all’interno di archivi che sono generati e alimentati dagli
utenti. Esempi di tali archivi sono blog, forum e siti di condivisione di immagini, audio e
video, per i quali la maggior parte del materiale indicizzato è prodotto e distribuito da
persone e non da aziende o editori. Una caratteristica interessante di questi MdR è la
possibilità per l’utente di influenzare il ranking, ossia la graduatoria con la quale sono
presentati i risultati, sulla base dell’espressione esplicita di preferenze o attraverso link alle
risorse.
D. MdR per contenuti multimediali
Sono MdR specializzati nella ricerca di materiali multimediali.
E. MdR che classificano automaticamente i risultati
Questa categoria di motori di ricerca comprende motori di clustering che raccolgono e
raggruppano semanticamente le informazioni emerse dalla ricerca. In questo modo si
facilita l'orientamento e si fornisce una prospettiva abbastanza ampia e ad un maggiore
livello di astrazione rispetto alle caratteristiche dell'oggetto della ricerca.
4
F. MdR che utilizzano tecniche di visualizzazione non convenzionali dei risultati
Alcuni MdR visualizzano i risultati della ricerca in modo alternativo. Le tecniche di
visualizzazione sono principalmente grafiche (MdR visuali) e consistono nella
presentazione di grafi o mappe multimediali, dai quali è possibile partire per affinare
ulteriormente la ricerca.
G. MdR o directory che si basano su processi cooperativi svolti dagli utenti per
indicizzare, classificare o operare tagging
Questi motori di ricerca si basano sul Social Bookmarking (condivisione in rete dei
bookmark): gli utenti creano un catalogo personale di risorse Internet ritenute valide e le
identificano attraverso parole chiave (tag) scelte liberamente. La ricerca avviene proprio su
tali parole chiave, individuate dagli altri utenti che fungono da filtro alle informazioni, e non
attraverso sofisticati algoritmi.
H. MdR in cui viene effettuata anche qualche operazione di information
extraction
I MdR che si basano sull’ Information Extraction (IE) analizzano il contenuto dei
documenti trovati nel web per estrarre e presentare all'utente solo le informazioni
specifiche richieste.
I. Metamotori
I metamotori si avvalgono di altri MdR per effettuare le ricerche nel web, aggregando i
risultati così ottenuti o presentandoli separatamente.
Panoramica degli strumenti di ricerca
Nel seguito vengono presentate le caratteristiche e le funzionalità di alcuni strumenti di
ricerca. L’elenco non è, ovviamente, esaustivo e la selezione si è basata su criteri sia
oggettivi (qualità, affidabilità, ...) sia soggettivi (usabilità). Vicino ai nomi sono indicate le
categorie di appartenenza.
OSKOPE (F - I)
oskope.com/
Si tratta di una sorta di metamotore di ricerca visuale che offre la possibilità di trovare
materiale negli archivi di Amazon, e-Bay, Flickr, Fotolia e Youtube e che che rende la
5
ricerca di immagini nel web più attraente ed intuitiva. Sia che si faccia una ricerca per
parole chiave che per categorie, Oskope provvederà a fornire la visualizzazione delle
miniature delle immagini dei risultati e i relativi link alle pagine esterne. L’utente può
scegliere tra cinque diversi layout di visualizzazione delle miniature: a griglia (grid), a pila
(stack), a mucchio (pile), a lista (list), a grafo (graph). Particolarmente interessante è la
possibilità di salvare le risorse prescelte in una cartella e inviarla via email.
Figura 1 - Oskope, visualizzazione a stack
Figura 2 - Oskope, visualizzazione a list
6
Figura 3 - Oskope, visualizzazione a graph
RedZee (F)
www.redzee.com/
Si tratta di un motore di ricerca che permette di visualizzare un’anteprima dei siti che si
cercano, ancora prima di aprirli e di scorrere tra i risultati come se si trattasse di una
galleria fotografica. Si può scegliere di ricercare in tutto il web, tra le immagini o i video.
Figura 4 - RedZee
7
TouchGraph Google Browser (F - I)
www.touchgraph.com/TGGoogleBrowser.html
MdR visuale che restituisce i collegamenti tra i siti utilizzando la tecnologia di Google e
visualizzando i risultati in una mappa personalizzabile e interattiva. I risultati possono
essere filtrati e riorganizzati all'interno della mappa stessa. TouchGraph Google Browser
richiede, per funzionare, il Java plugin, reperibile all’url www.java.com/it/download/.
Figura 5 - TouchGraph Google Browser
Figura 6 - TouchGraph Google Browser, la mappa esportata
8
Yippy (E)
yippy.com
Yippy (in precedenza Clusty) è un progetto nato presso la Carnegie Mellon University ed è
ora interamente posseduto da Vivisimo (IBM). Yippy è un metamotore che oltre ad
effettuare ricerche su differenti motori di ricerca raggruppa i risultati in cluster o categorie
per renderli più facilmente consultabili e interpretabili.
Il servizio permette di focalizzare la ricerca su diverse aree tematiche: web, news,
immagini, mappe, blog, wikipedia, job, shopping e gov. E’ prevista, inoltre, la possibilità di
personalizzare sia la visualizzazione dei risultati che la ricerca ed effettuare ricerche
avanzate.
Figura 7 - Yippy
SCIRUS (B)
www.scirus.com
Scirus è un motore di ricerca specializzato nel recupero dell'informazione tecnica e
scientifica sul web. Esso permette di interrogare un vasto numero di fonti accademiche:
articoli e riviste, pagine personali di scienziati, materiale didattico, materiale grigio non
ancora edito, archivi di brevetti e materiali istituzionali. Un box suggerisce come migliorare
la ricerca, indicando alcune parole chiave aggiuntive. I risultati della ricerca possono
essere salvati, esportati o spediti per e-mail. Una sezione permette anche di segnalare un
sito (che si vorrebbefosse indicizzato dal motore di ricerca) compilando un form online.9
Figura 8 - Scirus
Academia.edu (C)
www.academia.edu
Academia.edu è un sito web per ricercatori dedicato alla condivisione delle pubblicazioni
scientifiche. È stato lanciato nel settembre 2008 e conta più di 2 milioni di utenti registrati.
La piattaforma può essere utilizzata per condividere articoli, monitorare il proprio impact
factor1 e seguire studiosi di tematiche specifiche.
Figura 9 - Academia.edu
1 Il fattore di impatto (impact factor o IF in inglese) è un indice sintetico che misura il numero medio di citazioni ricevute in un particolare anno da articoli pubblicati in una rivista scientifica nei due anni precedenti [fonte: http://it.wikipedia.org/wiki/Impact_factor].
10
Fisicast (B)
www.radioscienza.it/fisicast
Mdr per podcast di fisica.
Figura 10 - Fisicast
AudioCast .it (C - D)
www.audiocast.it/podlist
MdR per podcast italiani.
Figura 11 - AudioCast.it11
Motore Universitario (I)
www.motoreuniversitario.com
MdR, rivolto in particolare agli studenti universitari. I risultati delle ricerche sono gli stessi
forniti da Google ma risultano circoscritti ai soli siti web delle università italiane. Il servizio
si propone di fornire uno strumento per facilitare le ricerche di tesi, appunti, dispense e
quant'altro.
Figura 12 - Motore Universitario
Search PDF (A)
search-pdf-books.com
Search PDF è un motore di ricerca che ricerca di file PDF, siano essi interi libri,
documenti, bibliografie, curriculum o altro ancora. La maschera di ricerca è davvero molto
spartana e semplice e ricorda quella di Google.
Figura 13 - Search PDF
12
FindSounds (B)
www.findsounds.com
Motore per la ricerca di suoni ed effetti sonori vari. Per ogni risltato viene fornita la
visualizzazione di una piccola forma d’onda, che permette di ricercare ulteriori effetti sonori
con una forma d’onda simile a quella selezionata.
Figura 14 - FindSounds
Volunia (A)
www.volunia.com
Volunia è un motore di ricerca progettato e realizzato completamente da un team italiano.
Online dal giugno del 2012, individua ed indicizza i siti costruendo la classificazione in
base ai commenti e alle opinioni degli utenti. Infatti, su Volunia è possibile interagire tra
utenti dei siti e con i gestori del motore di ricerca, costruendo un dialogo intorno alla
ricerca e alla navigazione.
Figura 15 - Volunia
13
TinEye (D)
www.tineye.com
Motore specializzato nella ricerca di immagini Per avviare la ricerca bisogna caricare
un’immagine o specificarne l’url. Il risultato è costituito da immagini identiche o somiglianti.
a quella fornita.
Figura 16 - TinEye
Podcast Pup (D - I)
www.podcastpup.com
Metamotore specializzato nella ricerca di podcast.
Figura 17 - Podcast Pup
14
Delicious (G)
delicious.com
Delicious è un social bookmarking, cioè un sito che permette agli utenti registrati di salvare
i link “preferiti” (i bookmark). Delicous offre un motore interno per ricercare tra i bookmark
presenti.
Figura 18 - Delicious
Pleeq (G)
pleeq.com
Pleeq è un social bokmarking dedicato alle immagini. Oltre a consentire il salvataggio delle
immagini preferite, dispone di un motore interno che ricerca tra i bookmark presenti.
Figura 19 - Pleeq
15
Dooblet
dooblet.com
Motore che ricerca un'alternativa per qualsiasi cosa
Figura 20 - Dooblet
Wolfram Alpha
www.wolframalpha.com
Wolfram Alpha non è propriamente un motore di ricerca ma un motore computazionale
di conoscenza che interpreta le parole chiave inserite dall'utente e propone direttamente
una risposta, invece che offrire una lista di collegamenti ad altri siti web.
Figura 21 - Dooblet
16
Altri strumenti di ricerca
Project Gutenberg
www.gutenberg.org
Sito che contiene oltre 30.000 libri tutti completamente free e scaricabili gratuitamente,
grazie al loro copyright scaduto. Al link http://www.gutenberg.org/browse/languages/it si
trovano i libri in italiano.
Biblioteca italiana
www.bibliotecaitaliana.it
Un progetto esclusivamente realizzato in Italia dall’Università degli Studi di Roma La
Sapienza, che prevede la condivisione di opere esenti da diritto d’autore. Ulteriori siti di
ebook gratuiti sono reperibili al link sites.google.com/site/trovaebook/ebook-gratuiti-scorri-
liste.
Archivio Storico Luce
www.archivioluce.com/archivio
L'Archivio Storico Luce è la più grande raccolta di documenti audiovisivi della storia
d'Italia.
Mediateca Digitale Italiana (RAI)
www.medita.rai.it
La più grande mediateca digitale d’Europa, messa a disposizione dei docenti italiani in
convenzione con il Ministero dell’Istruzione dell’Università e Ricerca.
Podcast RAI
www.rai.tv/dl/RaiTV/cerca_podcast.html
Raccolta di podcast di trasmissioni RAI.
Wikipedia
it.wikipedia.org/wiki/Pagina_principale
Wikipedia è un'enciclopedia online disponibile in oltre 280 lingue, realizzata dagli utenti
stessi mediante un wiki.17
Ulteriori strumenti di ricerca offerti da Google
YouTube
www.youtube.com
Sito per la condivisione di video caricati dagli utenti. Possiede un motore di ricerca interno.
Google Scholar
scholar.google.com
Motore di ricerca che consente di individuare testi della letteratura accademica.
Google Books
books.google.com
Motore di ricerca di libri.
Google Images
images.google.com
Motore di ricerca di immagini.
Google Videos
www.google.it/videohp
Motore di ricerca per video.
Fonti- C. Trocciola, L’overload informativo nell’era di Internet in CamminandoScalzi.it,
16/01/2010, url: http://www.camminandoscalzi.it/wordpress/overload-informativo-era-
internet.html
- C. Tasso, P. Omero, La personalizzazione dei contenuti web, Franco Angeli, 2007,
scheda libro: http://www.francoangeli.it/ricerca/Scheda_libro.aspx?ID=9766
18