1
Integrazione di Sorgenti HTML in MOMIS:
Analisi Comparativa degli Strumenti Esistenti
Integrazione di Sorgenti HTML in MOMIS:
Analisi Comparativa degli Strumenti Esistenti
Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di ModenaFacoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria InformaticaCorso di Laurea in Ingegneria Informatica
RelatoreChiar.mo Prof. Sonia Bergamaschi
CorrelatoreDott. Maurizio Vincini
Tesi di LaureaLorenzo Lugli
ControrelatoreProf. Domenico Beneventano
Anno Accademico 2001 - 2002
2
Introduzione
Crescita mole dati disponibili
Soluzione adottata daimotori di ricerca tradizionali
Ritrovamento dei dati ad un punto critico
Problemi: Velocità di crescita del Web
I contenuti delle pagine dinamiche vengono ignorati
Max accuratezza raggiungibile pagina Web
Indicizzazione di tuttele pagine presenti sul Web
3
Introduzione
HumanReadableHTML
MachineReadableXML
wrapper
Wrapper XML
HTML Generatore di wrapper
XML
Soluzione adottata:
MOMIS(Mediator EnvirOnment for
Multiple Information Sources)www.dbgroup.unimo.it/Momis
Wrapper
ObjectSource
Integration Designer
Design levelUser
User level
Query ManagerOBJ ECT SERVANT
WrapperRelational
Source
Data level
SI -Designer
Global SchemaDATA REPOSITORY
SIM ODB-Toolsvalidation
SLIM WordNet InteractionARTEMIS Clustering TUNIM Map. Table tuning
I ntegration level
WordNetOBJ ECT SERVANT
Momis – Global Schema Builder
ODB-ToolsOBJ ECT SERVANT
Service levelWordNet ODB-Tools
WrapperXML
Source
Wrapper
HTMLSource
Wrapper
ObjectSource
Wrapper
ObjectSource
Integration Designer
Design levelUser
User level
Query ManagerOBJ ECT SERVANT
WrapperRelational
Source
Data level
SI -Designer
Global SchemaDATA REPOSITORY
SIM ODB-Toolsvalidation
SLIM WordNet InteractionARTEMIS Clustering TUNIM Map. Table tuning
I ntegration level
WordNetOBJ ECT SERVANT
Momis – Global Schema Builder
ODB-ToolsOBJ ECT SERVANT
Service levelWordNet ODB-Tools
WrapperXML
Source
Wrapper
HTMLSource
4
Obiettivo della tesi
Analisi dei generatori di wrapper HTML XML
Test
Generazione di wrapper per siti di esempio
Utilizzo dei wrapper per trasformare le pagine HTML in XML
Individuazione di uno strumento per MOMIS
Robustezza: capacità dei wrapper di fornire un’estrazione efficace anche in seguito a cambiamenti nelle pagine sulle quali sono stati messi a punto.
5
Generatori di Wrappers
XWRAP Elite Georgia Institute of Technology
RoadRunner Università di Roma Tre
Andes IBM Almaden Research Center
Lixto Lixto Software DBAI University of Technology Vienna
Lapis Carnegie Mellon University Pittsburgh
6
XWRAP Elite
Obiettivo: Pagine Web data-intensive
Processo di generazione del wrapper:
Individuazione dei dati e separazione in data object
Decomposizione degli oggetti in elementi
Marcatura di oggetti ed elementi
Contributo Primario: Euristiche ed algoritmi per sopperire alla necessità di input semantici da parte del progettista
7
XWRAP Elite
Fase di Test: Problemi
Immagini, Javascript
Sottoalbero minimo
HTTPS
Frame
Tabelle complesse
8
Il sistema RoadRunner
ObiettivoRaggiungere completa automatizzazione
Principale intuizione:
Studio dianalogie edifferenze
Scoperta di modelli di estrazione
9
Il sistema RoadRunner
Architettura
Classifier
Aligner
Expander
Labeler
Classifier
Labeler
Expander
Aligner
DatiEstratti
Wrapper con campi non etichettati
Classidi Pagine
PagineSingole
InputPunto di
Accesso al sito
XML
10
Il sistema RoadRunner
Labeler
…<table> <tr>
<td>Nome</td><td>Telefono</td>
</tr> (<tr><td>$A</td>
<td>$B</td> </tr>)+ </table>…
<TABLE>
+
<TR>
<TD> <TD>
$A $B
<TR>
<TD> <TD>
Nome Telefono
11
Il sistema Andes della IBM
HTML XMLXPath
Processo di conversione HTML - XML
Estrattori
Estrattore
XSL Processor XSL ProcessorOutput
XMLXMLXML …
XSLT nXSLT 1
XHTML
URL
XSLT Set
12
Il sistema Andes
Sintesi degli hyperlink
Ancore: punti di riferimento per individuare concetti di interesse
Salti: percorso che porta al dato di interesse partendo dall’ancora più vicina
Filtri HTML
Filtro XHTML
Navigatore
Deposito URL
URLs
HTML conHyperlinkSintetici
HTML conJavaScript e FORM HTML
HTML
XSLT
13
Il sistema Lixto
Principale caratteristica: Interfaccia visuale e interattiva
Modelli: Specificano come estrarre sezioni di dati da pagine Web
Ogni modello viene mappato in un tag XML
Filtri: Forniscono una rappresentazione alternativa dei dati che devono essere estratti
Condizioni: Servono a restringere il numero di data-object restituiti da un filtro
14
Il sistema Lixto
Risultati dei test: problemi
Frame
Concetti aventi differenti significati innestati allo stesso livello di una struttura dati
Ricostruzione simple element
Estrazione multipagina
Browser interno
Risultati dei test: successo
Struttura dei dati
Struttura della paginaHTML
15
XWRAP Elite Data-intensive
Lixto Individuali
RoadRunner
Andes IBM
Conclusioni