TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

Transcript

Page 1: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

Università Federico II di Napoli Dipartimento di Scienze Matematiche, Fisiche e Naturali

Corso di Laurea in Informatica

Anno Accademico 2006/2007

Tesi: “Sviluppo di un software per la creazione automatica di documenti XML ricorsivi DTD based” Relatore: Prof. Francesco Cutugno Prof. Leandro D’Anna

Laureando: Raffaele Liguoro Mat. 566/1161

Page 2: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 2 -

Indice Introduzione pag.3 CAPITOLO 1 - Analisi critica degli strumenti pag.4 1.1 Lo standard XML pag.5 1.1.1 Origini e scopi del linguaggio XML pag.5 1.1.2 Regole sintattiche pag.6 1.1.2.1 Intestazione di un documento XML pag.6 1.1.2.2 I tag XML pag.6 1.1.2.3 Gli elementi XML pag.7 1.1.2.4 Gli attributi XML pag.8 1.1.2.5 I namespaces pag.9 1.1.2.6 Referenze ad entità pag.12 1.1.3 La famiglia di XML pag.12 1.2 Le DTD pag.15 1.2.1 Nozioni base sulle DTD pag.15 1.2.2 Validazione di documenti pag.18 1.3 XPATH pag.20 1.3.1 Origini e scopi di XPATH pag.20 1.3.2 Modello dati XPATH pag.21 1.3.3 Sintassi di XPATH pag.25 1.3.3.1 Abbreviated e full syntax pag.25 1.3.3.2 Axis pag.26 1.3.3.3 Test node pag.28 1.3.3.4 Predicates pag.29 1.3.4 Funzioni ed espressioni XPATH pag.30 1.3.5 Esempi pratici pag.32 1.4 XQUERY pag.35 1.4.1 Origini e scopi di XQUERY pag.35 1.4.2 Interrogazione di documenti XML pag.36 1.4.3 Espressioni FLWOR pag.37 1.4.4 Espressioni condizionali pag.40 1.4.5 Funzioni predefinite pag.41 1.4.6 Funzioni personalizzate pag.42 1.4.7 Differenze tra XQUERY ed XPATH pag.43 CAPITOLO 2 - Aspetti progettuali del software pag.44 2.1 Analisi del problema pag.45 2.2 Motivazioni pag.45 2.3 Progettazione astratta pag.45 2.4 Scelta del linguaggio pag.46 2.4.1 Il linguaggio C# pag.46 2.4.2 Differenze con altri linguaggi pag.47 2.4.3 Esempi di utilizzo del C# pag.48 2.4.4 Standardizzazione pag.49 2.5 Struttura logica dell’applicazione pag.50 CAPITOLO 3 - Descrizione del software pag.57 3.1 Descrizione generale pag.58 3.2 Generazione di un documento XML di esempio pag.58 3.3 Analisi teorica dei parametri settabili pag.61 3.4 Settaggio pratico dei parametri pag.62 3.5 Valutazione dell’XML generato pag.67 3.6 Lo strumento XQuery resolver pag.70 3.7 Altre funzionalità pag.71 CAPITOLO 4 – Testing e valutazioni pag.73 4.1 Valutazione delle prestazioni spaziali e temporali del software pag.74 4.2 Valutazione dell’output generato pag.75 4.3 Verifica dei risultati ottenuti tramite il software XGATE pag.80 Conclusioni pag.89 APPENDICE A : Caratteristiche tecniche del software pag.90 APPENDICE B : Glossario delle abbreviazioni e dei termini tecnici pag.92 APPENDICE C : Estratti di codice sorgente pag.96 Bibliografia pag.104 Ringraziamenti pag.105

Page 3: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 3 -

Introduzione

La sempre maggior diffusione dello standard XML avvenuta negli ultimi tempi, derivata

dalla scoperta delle potenzialità di quest’ultimo e da un’intrinseca semplicità di utilizzo, ha

aperto la strada ad uno sviluppo sempre crescente di applicazioni che fruiscono dell’XML

per svariati impieghi. Tali impieghi spaziano dall’editing di semplici documenti XML alla

manipolazione di database contenenti strutture complesse ed eventualmente ricorsive

difficilmente gestibili con altri tipi di applicazioni che non adoperano tale standard.

Il programma XML recursive generator è un tool ideato ed implementato allo scopo di

permettere la generazione di documenti XML in maniera pseudo-casuale, seguendo

vincoli di generazione dettati da parametri impostati dall’utente tramite un’interfaccia

grafica (GUI). Allo stesso tempo il software rispetta pedissequamente lo schema di

generazione dettato da una qualsiasi DTD selezionabile anch’essa dall’utente. In altre

parole, il software è stato concepito allo scopo di generare in maniera “controllata” un

documento XML seguendo lo schema estrapolato da una DTD e seguendo una serie di

parametri che regolano diversi fattori, quali: il numero di nodi da generare nel documento,

le dimensioni (altezza, larghezza) dell’albero XML da generare, i livelli entro i quali

possono essere generati i nodi ricorsivi, la possibilità di effettuare ricorsioni dirette e/o

indirette solo su determinati nodi dell’albero, nonchè di regolare indipendentemente le

percentuali delle sopracitate ricorsioni rispetto al numero totale dei nodi da generare.

Il software permette inoltre all’utente di visualizzare graficamente i risultati dettagliati della

generazione effettuata e di salvarli su file (sempre in formato XML) per effettuare confronti

con risultati di generazioni eseguite precedentemente, allo scopo di permettere all’utente

la realizzazione di opportuni benchmark sui documenti XML generati. Le tecnologie di

base utilizzate nel progetto sono DotNET 2.0 e Data Oject Model, incluse nella piattaforma

Visual Studio .NET. La scelta del linguaggio di programmazione utilizzato per la creazione

del software è caduta sul C#, un potente successore del ben noto C++, il quale fornisce

numerosi strumenti per la manipolazione di strutture e dati XML, ed è inoltre affiancato da

un versatile compilatore grafico in grado di facilitare la creazione di interfacce e finestre.

Tutte queste caratteristiche e potenzialità mirano dunque a rendere XML recursive

generator un software completo per la creazione, lo studio ed il testing di documenti XML

ricorsivi.

Page 4: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 4 -

Capitolo

1 Analisi critica degli strumenti

Page 5: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 5 -

1.1 Lo standard XML

1.1.1 Origini e scopi del linguaggio XML

XML è un formato di rappresentazione delle informazioni il cui acronimo sta per

eXtensible Markup Language che tradotto letteralmente vuol dire “Linguaggio estendibile

basato su marcatori”. XML nasce nel febbraio del 1998, come raccomandazione del W3C

(World Wide Web Consortium), ed ha come scopo la rappresentazione di informazioni

strutturate di qualunque natura, basate su precise regole di rappresentazione.

XML ha origine dal metalinguaggio SGML (Standard Generalized Markup Language), che

in quanto tale è semplicemente un insieme di regole generalizzate usate per creare

molteplici linguaggi particolari: i Markup Languages.

XML è anch’esso un metalinguaggio, che ha come scopo la rappresentazione di contenuti

testuali organizzati gerarchicamente.

Con esso è dunque possibile rappresentare qualsiasi tipo di contenuto che sia

riconducibile ad una gerarchia di informazioni. Punti di forza dell’XML sono la sua

semplicità e l’immediata leggibilità, dovuta proprio all’utilizzo del puro testo come metodo

di scambio per le informazioni. Esso prevarica sugli altri formati puramente testuali per il

concetto intrinseco di organizzazione dovuto alla presenza dei marcatori, che permettono

di definire una universale organizzazione dei dati valida per tutti gli utilizzatori, al contrario

dei formati di testo semplice che per essere scambiati tra diversi interlocutori hanno

bisogno di precise regole di formattazione da concordare a priori.

Con l’avvento dello standard XML 1.1 (24 ottobre 2001) diventa possibile pensare ad XML

non pìu solamente come ad un documento di testo gerarchico, ma, astraendo dal

contenuto fisico del testo stesso, è possibile concentrarsi sul contenuto informativo da

esso rappresentato.

L’utilizzo del testo puro è in sè anche la causa di uno dei principali problemi dell’XML: la

scarsa economicità in termini di spazio di occupazione.

I documenti XML sono ingombranti perchè appunto testuali, quindi richiedono tempi

maggiori per essere trattati e trasferiti via internet.

Tuttavia anche questo tipo di standard ha il suo campo di applicazione, ed esamineremo

accuratamente come sia possibile trarre dal suo utilizzo i maggiori benefici.

Page 6: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 6 -

1.1.2 Regole sintattiche

Per far si che XML possa essere leggibile su qualsiasi piattaforma è necessario che

vengano rispettate una serie di regole sintattiche di base, le quali esamineremo ora in

dettaglio.

1.1.2.1 Intestazione di un documento XML

Ogni documento XML deve presentare un header, costituito da diverse informazioni, di cui

alcune opzionali. Ecco un esempio:

<?xml version="1.0" encoding=”ISO-8859-1” standalone=”yes” ?>

La precedente riga contiene l’identificatore principale del documento XML, la versione

utilizzata (1.0), la codifica dei caratteri (ISO-8859-1) e l’attributo “standalone” impostato su

“yes” il quale indica che il presente documento è indipendente da altri. Solo il primo dei

precedenti attributi è obbligatorio.

1.1.2.2 I tag XML

Un documento XML è simile ad uno HTML, in cui però possiamo scegliere di creare tag a

nostro piacimento. Ecco un esempio:

<nota> <da>Gianni</da> <a>Mario</a> <titolo>Messaggio</titolo> <testo>Ciao</testo> </nota>

La scelta dei tag può essere effettuata a seconda delle informazioni che ci interessa

rappresentare e che la specifica applicazione dovrà riconoscere. Il primo tag <nota>

identifica la radice del documento. I tag specificano il contenuto della nota in termini di

titolo, mittente, destinatario e testo. L’ultimo tag conclude la descrizione della nota.

I tag si dividono in:

Page 7: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 7 -

• Tag di apertura: <nometag> es: <nota>

• Tag di chiusura: </nometag> es: </nota>

• Tag vuoti: <nometag/> es: <nota/>

Inoltre bisogna ricordare che XML è un metalinguaggio case sensitive: l'elemento <nota>

è diverso dall'elemento <Nota> e cosi via.

1.1.2.3 Gli elementi di XML

Gli elementi in XML sono estendibili, in questo modo è possibile mantenere compatibilità

con versioni precedenti (backward compatibility) ad esempio:

<?xml version="1.0"?> <nota> <da>Gianni</da> <a>Mario</a> <titolo>Saluti</titolo> <messaggio>Ciao</messaggio> </nota> <?xml version="1.0"?> <nota> <da>Gianni</da> <a>Mario</a> <titolo>Saluti</titolo> <messaggio>Ciao</messaggio> <data>15/07/2007</data> </nota>

Gli elementi in XML sono in relazione tra di loro e queste relazioni determinano il modello

del documento. Il documento è organizzato come un albero, in cui la relazione di

contenimento tra tag è equivalente alla relazione nodo-sottonodo, ad esempio i tag: <a>,

<da>, <titolo> e <messaggio> sono sottonodi o nodi-figlio di <nota>.

L’unico nodo che non è figlio di nessuno (ad esempio: <nota>) è la cosiddetta entità

radice.

In XML è inoltre obbligatorio che tutti gli elementi debbano possedere un tag di chiusura.

E’ importante rispettare la sequenza di apertura/chiusura dei tag; l'ordine di chiusura dei

tag deve sempre essere inverso rispetto all'ordine di apertura; il successivo è un esempio

di uso errato della sintassi degli elementi:

<Mittente><Destinatario>Gianni</Mittente></Destinatario>

Page 8: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 8 -

1.1.2.4 Gli attributi di XML

In XML gli attributi vengono utilizzati per aggiungere caratteristiche o proprietà agli

elementi. Un attributo è una coppia nome-valore, separata da un segno di uguale, che può

essere presente all'interno del tag di apertura di un elemento, dopo il nome dell'elemento

stesso. Un elemento può contenere uno o più attributi. Ogni attributo è sempre associato

ad un elemento, non può essere indipendente da esso, ed inoltre, lo stesso attributo può

ricorrere anche in molteplici elementi. Gli attributi sono informazioni aggiuntive che

possono essere inserite negli elementi XML per completarne o arricchirne l’informazione,

possono essere racchiusi sia tra apici singoli che doppi, ad esempio:

<mela colore="rossa"> Ottima da mangiare </mela> oppure:

<mela colore=’rossa’> Ottima da mangiare </mela>

Spesso le stesse informazioni possono essere rappresentate sia tramite attributi che

tramite (sotto)elementi. Ad esempio: <nota> <da>Gianni</da> <a>Mario</a> <titolo>Test</titolo> <messaggio>...</messaggio> </nota>

oppure:

<nota titolo="Test"> <da>Carlo</da> <a>Luca</a> <messaggio>...</messaggio> </nota>

La scelta tra attributi o elementi è soggettiva, tuttavia le due soluzioni non sono in genere

equivalenti. Utilizzando gli attributi possono presentarsi i seguenti problemi:

Page 9: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 9 -

• non possono contenere valori multipli:

<padre nome=“Gianni”><figlio>Luca</figlio><figlio>Marco</figlio></padre>

• sono difficilmente espandibili (aggiunta di sottoelementi);

• non possono descrivere strutture:

• non hanno un supporto standard per la gestione nei programmi;

• sono difficili da controllare rispetto ad un formato di documento DTD;

E’ opportuno usare gli attributi per informazioni essenziali per l’elemento, come ad

esempio gli identificativi (ID).

1.1.2.5 I namespaces

Nella visione XML, i tipi di documenti si mescolano e si fondono tra loro in maniera

complessa.

Lo stesso documento potrebbe avere alcuni elementi definiti in un vocabolario ed altri in

un altro.

Un esempio comune è un documento XML di valori di borsa che adopera i tag di HTML

per definire gli elementi di testo, ed un insieme di tag specifico per gli elementi di borsa,

oppure anche un documento che contiene elementi strutturali di un vocabolario principale.

I problemi che nascono riguardano il compito di identificare esattamente l'ambito di

ciascun elemento, conciliare la presenza di elementi definiti in uno di più vocabolari, e

soprattutto conciliare la presenza di elementi definiti con lo stesso nome in più vocabolari

diversi.

I namespace in XML si propongono per risolvere questi problemi.

XMLNamespaces è una recommendation di W3C del 1999.

Page 10: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 10 -

Supponiamo che una libreria voglia mettere il proprio database su Web:

<h:html xmlns:mia="http://www.mia.it/libri” xmlns:h="http://www.w3.org/HTML/1998/html4"> <h:head><h:titolo>Sezione Informatica</h:titolo></h:head> <h:body> <mia:Sezione Informatica> <mia:titolo>Guida ad XML</mia:titolo> <h:table> <h:tr> <h:td>Autore</h:td> <h:td>Prezzo</h:td> <h:td>Pagine</h:td> <h:td>Data</h:td> </h:tr> <h:tr> <h:td><mia:autore>Tizio</mia:autore></h:td> <h:td><mia:prezzo>99</mia:prezzo></h:td> <h:td><mia:pagine>999</mia:pagine></h:td> <h:td><mia:editore>XXX</mia:editore></h:td> </h:tr> </h:table> </mia:Sezione Informatica> </h:body> </h:html>

Ogni nome di elemento o attributo del documento XML è preceduto da un prefisso che ne

specifica l'ambito.

Il prefisso è separato dal carattere ‘:’ dal nome dell’elemento o dell’attributo.

L’attributo predefinito "xmlns" serve per introdurre i prefissi usati dai namespace del

documento.

Il valore dell’attributo è un URI che non ha nessun valore dichiarativo, ma solo informativo.

Si usa un URI perché si sa già che è unico su Internet.

Poiché ogni namespace userà un prefisso diverso, è possibile capire quali elementi

appartengono all’uno e all’altro, e di evitare qualunque problema di collisione.

Un nome (di elemento o di attributo) che contiene prefisso di namespace e nome locale

viene detto "nome qualificato".

Ovviamente la natura specifica del prefisso è irrilevante, conta solo che sia associato ad

un URI ben preciso.

Nella dichiarazione xmlns si pone il nome del prefisso che si intende usare nel corso del

documento per gli elementi definiti in quel namespace.

L’assenza di tale prefisso in xmlns indica la presenza di un namespace di default, per cui

tutti i nomi privi di prefisso si debbono intendere appartenenti a quel namespace.

Inserendo “HTML” come namespace di default, è tutto un po’ più leggibile, riprendendo

l'esempio precedente avremo:

Page 11: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 11 -

<html xmlns:mia="http://www.mia.it/libri” xmlns="http://www.w3.org/HTML/1998/html4"> <head><titolo>Sezione Informatica</titolo></head> <body> <mia:Sezione Informatica> <mia:titolo>Guida ad XML</mia:titolo> <table> <tr><td>Autore</td> <td>Prezzo</td> <td>Pagine</td> <td>Data</td></tr> <tr> <td><mia:autore>Tizio</mia:autore></td> <td><mia:prezzo>99</mia:prezzo><td> <td><mia:pagine>999</mia:pagine><td> <td><mia:editore>XXX</mia:editore></td> </tr> </table> </mia:Sezione Informatica> <body> <html>

La dichiarazione di namespace può essere fatta ovunque, e ha scope solo all’interno

dell’elemento in cui è stata fatta.

Possono essere fatte più definizioni di namespace di default, quella interna ha ovviamente

precedenza.

Il namespace contiene tre partizioni di nomi:

• All Element Types Partition: contiene tutti i nomi degli elementi definiti nel

namespace; ogni nome è unico in questa partizione;

• The Global Attribute Partition: contiene i nomi di tutti gli attributi definiti come

globali, ovvero usabili ovunque sia definito il namespace;

• The Per-Element-Type Partitions: ogni nome della All Element Types Partition ha

un namespace locale dove sono definiti i nomi degli attributi non qualificati ciò

significa che gli attributi propri di un elemento non debbono ripetere il prefisso di

namespace:

Page 12: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 12 -

1.1.2.6 Referenze ad entità

I dati di tipo carattere contenuti all’interno di un elemento non possono contenere siboli

come <,&,>,’,” che non siano sottoposti a escape, infatti, prendendo ad esempio il

simbolo “<”, esso viene sempre interpretato come inizio di un tag. Nel caso si abbia la

necessità di utilizzarlo all’interno di un testo bisogna sostituirlo con la sequenza < Una

simile sequenza viene detta referenza ad entità. Il parser che legge il documento si

occupe di rimpiazzare la sequenza di escape con il rispettivo carattere corrispondente.

XML predefinisce esattamente cinque referenze ad entità:

• < (carattere minore “<”)

• & (carattere e-commerciale “&”)

• > (carattere maggiore “>”)

• " (carattere virgolette “ “ ”)

• ' (carattere apostrofo “ ‘ ”)

1.1.3 La famiglia di XML

Dato che XML è un (meta)linguaggio per specificare altri linguaggi costituisce un livello

comune per il dialogo in ambienti differenti. XML non dice nulla su che tag utilizzare, ma

fissa solo delle regole comuni per eseguire correttamente il parsing del file. E’ possibile

usare XML per gli scopi più disparati,a seconda delle operazioni che verranno eseguite

dalla specifica applicazione di fronte agli specifici tag. Insieme ad XML abbiamo un

insieme di linguaggi derivati:

• XML Schema: serve per definire la grammatica di un documento XML, sostituto e

miglioramento rispetto al DTD, scritto in XML (XML Schema è un “dialetto” XML),

definito da Microsoft e ora standard W3C comunemente indicato come XSD

(acronimo di XML Schema Definition), non sono nient'altro che file di testo (con

estensione .xsd) che servono a definire elementi e attributi di un documento XML,

definire quali sono gli elementi figli e il loro ordine e numero, definire se un

elemento è vuoto oppure può contenere testo o altri elementi annidati, definire il

tipo, il valore di default o il valore fisso di elementi e attributi.

Page 13: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 13 -

• XSL: acronimo di eXtensible Stylesheet Language, XSL è un linguaggio di

annotazione che serve a "trasformare" la struttura di un documento in formato XML

in un'altra struttura. Lo scopo principale di questa trasformazione è certamente

quello di "convertire" il documento XML in un formato adatto alla presentazione su

diversi supporti (per esempio, la sua trasformazione in HTML).

• XPath: XPath è un linguaggio tramite il quale è possibile esguire delle espressioni

per indirizzare parti di un documento XML; è un linguaggio ideato per operare

all'interno di altre tecnologie XML quali XSL e XPointer, ed è caratterizzato dal fatto

di avere una sintassi non XML. In questo modo può essere meglio utilizzato

all'interno di URI o come valore di attributi di documenti XML; XPath opera su una

rappresentazione logica del documento XML, che viene modellato con una

struttura ad albero, ed XPath definisce una sintassi per accedere ai nodi di tale

albero. Oltre a questo XPath mette a disposizione una serie di funzioni per la

manipolazione di stringhe, numeri e booleani, da utilizzare per operare sui valori o

sugli attributi dei nodi.

• XLink: XLink è un linguaggio basato su XML per definire dei link (collegamenti) tra

risorse; il concetto di link è già presente ed è ampiamente usato in HTML, grazie al

tag <a> con il quale è possibile inserire all'interno di una pagina HTML dei link a

delle risorse (pagine html, immagini, file, etc.) esterne o interne alla nostra pagina; il

link utilizzato in HTML risente però di alcune limitazioni, XLink nasce con l'intento di

ovviare ai tali limitazioni, con XLink siamo in grado di definire dei link multipli,

multidirezionali e caratterizzarli anche dal punto di vista semantico.

• XPointer: XPointer è l'acronimo di XML Pointer language, Xpointer è un linguaggio

ideato per indirizzare parti di un documento XML; con XPointer abbiamo uno

strumento per indirizzare precisi punti o porzioni di un documento; da notare che le

parti di documento sono linkate senza che si debba andare a modificare il

documento di destinazione, come avviene ad esempio in HTML; XPointer usa la

sintassi XPath, con qualche estensione, per identificare le parti di documento da

indirizzare.

Page 14: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 14 -

• XQuery: XQuery è l'acronimo di XML Query language nasce proprio con l'intento di

realizzare un linguaggio per recuperare agevolmente le informazioni da un

documento XML ed andare a costituire una sorta di "SQL per XML"; XQuery non è

un linguaggio basato su XML ed è costituito da una sintassi semplice e facilmente

leggibile per formulare, nel modo più agevole possibile, le query sui dati; il working

group del W3C ha sviluppato anche una versione di XQuery con sintassi XML,

chiamata XQueryX.

Poichè lo sviluppo di estensioni a partire dalla specifiche di base XML continua tuttora I

possibili sviluppi futuri del linguaggio comprendono:

• Xfragment

Uno sforzo teso a rendere sensate delle porzioni di documenti XML che non

possono essere considerati documenti ben formattati se isolati dal resto del

documento.

• XML Schemas Un’applicazione XML in grado di descivere i contenuti leciti di documenti che

siano conformi ad un particolare vocabolario XML.

• XHTML Una riformulazione di HTML come applicazione XML ben formattata,

modulare e potenzialmente implementabile.

• XML Signatures

Un metodo standard per firmare in maniera digitale documenti XML,

permettendo l’autenticazione dei documenti risultanti.

• Canonical XML Un algoritmo standard utilizzato per verificare l’identicità di due documenti

XML.

Page 15: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 15 -

1.2 Le DTD 1.2.1 Nozioni di base sulle DTD Una caratteristica fondamentale dell'XML è l'estensibilità.

L'autore di un documento XML può creare nuovi tag per descrivere i contenuti semantici

dei propri dati, semplificando il loro scambio fra i gruppi di persone interessate allo stesso

settore.

Ciò ha portato alla necessità di definire delle regole grammaticali, o vincoli, alle quali gli

elementi devono attenersi.

Queste regole grammaticali sono definite nelle specifiche XML e sono codificate nel DTD

(acronimo di Document Type Definition che significa definizione del tipo di documento.

Le regole grammaticali o vincoli specificano:

• quale è l'insieme degli elementi e degli attributi che si possono usare nel

documento XML;

• quali sono le relazioni gerarchiche fra gli elementi;

• quale è l'ordine in cui gli elementi appariranno nel documento XML;

• quali elementi ed attributi sono opzionali;

Quando un documento XML è ben formato e rispetta le regole della DTD a cui si riferisce

si dice che esso è un documento XML valido. In un documento XML si può specificare la

DTD in modo esplicito (DTD interna) o con un riferimento ad un documento distinto (DTD

esterna). Se la DTD è interna, deve essere dichiarata con la seguente sintassi:

<!DOCTYPE elemento-radice [dichiarazione-elementi]>

Page 16: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 16 -

Esempio semplificato di una DTD per una legge: <?xml version="1.0"?> <!DOCTYPE Legge [ <!ELEMENT Legge (TitoloLegge,Articolato) > <!ELEMENT TitoloLegge (#PCDATA)> <!ELEMENT Articolato (Capo+)> <!ELEMENT Capo (Rubrica?,Articolo+)> <!ELEMENT Rubrica (#PCDATA)> <!ELEMENT Articolo (Rubrica?,Comma+)> <!ELEMENT Comma (#PCDATA)> <!ATTLIST Capo Num CDATA #REQUIRED> <!ATTLIST Articolo Num CDATA #REQUIRED> <!ATTLIST Comma Num CDATA #REQUIRED> ]> <Legge> <TitoloLegge>Disciplina delle associazioni a scopo benefico</TitoloLegge> <Articolato> <Capo Num="I"> <Rubrica>DISPOSIZIONI GENERALI</Rubrica> <Articolo Num="1"> <Rubrica>Finalità e oggetto della legge</Rubrica> <Comma Num="1">La Repubblica riconosce il valore sociale...</Comma>...

Se la DTD è esterna, deve essere dichiarata con la seguente sintassi:

<!DOCTYPE elemento-radice SYSTEM "nome-file">

Vediamo lo stesso esempio semplificato con la dichiarazione esterna: <?xml version="1.0"?> <!DOCTYPE Legge SYSTEM "legge.dtd"> <Legge> <TitoloLegge>Disciplina delle associazioni di promozione sociale <Articolato><Capo Num="I"> <Rubrica>DISPOSIZIONI GENERALI</Rubrica> <Articolo Num="1"> <Rubrica>Finalità e oggetto della legge</Rubrica> <Comma Num="1">La Repubblica riconosce il valore sociale...</Comma> ... </Legge>

dove legge.dtd è un file esterno che contiene la DTD per il documento XML, e cioè le

righe:

<!ELEMENT Legge (TitoloLegge,Articolato)> <!ELEMENT TitoloLegge (#PCDATA)> <!ELEMENT Articolato (Capo+)> <!ELEMENT Capo (Rubrica?,Articolo+)> <!ELEMENT Articolo (Rubrica?,Comma+)> <!ELEMENT Rubrica (#PCDATA)> <!ELEMENT Comma (#PCDATA)> <!ATTLIST Capo Num CDATA #REQUIRED> <!ATTLIST Articolo Num CDATA #REQUIRED> <!ATTLIST Comma Num CDATA #REQUIRED>

Page 17: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 17 -

In una DTD gli elementi del documento XML sono definiti tramite una dichiarazione di

elemento che può assumere tre forme.

• Prima forma:

<!ELEMENT NomeElemento (#PCDATA)>

Questa è la forma più semplice in cui si dichiara che un elemento può contenere

come valore una qualsiasi stringa di testo; ad esempio:

<!ELEMENT Rubrica (#PCDATA)>

In questo caso il documento XML che fa riferimento al DTD contenente tale

dichiarazione potrà contenere un elemento del tipo:

... <Rubrica>TESTO</Rubrica> ...

• Seconda forma:

<!ELEMENT NomeElemento EMPTY>

Questa è la forma con la quale si dichiara che un elemento è privo di valore.

In questo caso all'elemento sono sempre di solito associati uno o più attributi:

<!ELEMENT Numero EMPTY> <!ATTLIST Numero Valore CDATA #REQUIRED>

e quindi il documento XML che fa riferimento alla DTD contenente tale

dichiarazione potrà contenere un elemento del tipo:

... <Numero Valore="1"/> ...

Page 18: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 18 -

• Terza forma:

<!ELEMENT NomeElemento (ElementoFiglio1, ElementoFiglio2, ...)>

Questa è la forma a contenitore in cui si dichiara che un elemento è composto da

sotto-elementi (figli) con i quali s'instaura una stretta gerarchia del tipo padre-figlio:

<!ELEMENT Legge (TitoloLegge, Articolato)> <!ELEMENT TitoloLegge (#PCDATA)> <!ELEMENT Articolato (...)>

In questo caso il documento XML che fa riferimento al DTD contenente tale

dichiarazione potrà contenere un elemento del tipo:

<Legge> <TitoloLegge>Disciplina delle associazioni a scopo benefico</TitoloLegge> <Articolato> ... </Articolato> </Legge>

1.2.2 Validazione di documenti

Un documento per il quale è richiesta la validazione deve includere un riferimento a DTD

con il quale deve essere messo a confronto.

Questo riferimento deve essere fornito nella dichiarazione del tipo di documento

(document type declaration), che può avere ad esempio il seguente aspetto:

<!DOCTYPE person SYSTEM “http://indirizzo.org/person.dtd”>

Questa dichiarazione afferma che l’elemento radice è person e che la DTD può essere

rintracciata all’URI “http://indirizzo.org/person.dtd”.

URI è l’acronimo di Uniform Resource Identifier (identificatore uniforme di risorsa). Gli

URI sono un superset degli URL, perchè includono sia gli URL che gli URN (Uniform

resource names). Un URI in linea teorica permette di identificare una risorsa

Page 19: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 19 -

indipendentemente dalla sua collocazione (infatti la risorsa potrebbe essere disponibile in

più locazioni differenti ma eugualmente autorevoli). Nella pratica invece gli URL sono

l’unico tipo di URI realmente utilizzati.

Una DTD può essere associata ad un public ID (nome ID pubblico). Il nome dell’ID

pubblico identifica univocamente l’applicazione XML utilizzata. Per indicare che si vuole

utilizzare un ID pubblico, è sufficiente utilizzare la parola chiave PUBLIC al posto di

SYSTEM. La seguente dichiarazione di tipo di documento fa riferimento al DTD

standardizzato da Netscape per l’applicazione RSS:

<!DOCTYPE res PUBLIC “-//Netscape Communications//DTD RSS 0.91//EN”

“http://my.netscape.com/publish/formats/rss-0.91.dtd”>

Nella pratica, gli ID pubblici non vengono utilizzati frequentemente, tutti i parser XML si

basano sull’URI per la validazione del documento.

Page 20: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 20 -

1.3 XPATH

1.3.1 Origini e scopi di XPATH

XPath è un linguaggio tramite il quale è possibile eseguire delle espressioni per indirizzare

parti di un documento XML. Esso utilizza una sintassi diversa da XML per definire

espressioni che identificano particolari nodi e gruppi di nodi contenuti in un documento

XML.

Tale sintassi viene utilizzata sia da XPointer che da XSLT e da alcuni innovativi linguaggi

prposti per per l’interrogazione di basi di dati realixzzate in XML (tra i quali XQuery).

La versione 1.0 di XPath è diventata uno standard W3C il 16 novembre 1999.

Esso consente di creare espressioni dichiarative, chiamate espressioni XPath o pattern,

che individuano i vari nodi dell'albero di rappresentazione di un documento XML.

XPath opera sull’astratto, sulle strutture logiche di un documento XML, piuttosto che

riproporne la sintassi e prende il nome dall’uso di una notazione a Path come gli URLs per

la navigazione attraverso la struttura gerarchica di un documento XML. La sua sintassi è

molto compatta e, per certi versi, ricorda un po' le espressioni per individuare il percorso di

un file o una cartella su un file system.

In aggiunta all’uso della sintassi a path, XPath è anche progettato per avere un

sottoinsieme naturale che permetta di poter effettuare dei confronti (capire se un nodo ha

o non una determinata struttura).

XPath modella un documento XML come un albero di nodi (Tree Nodes). Questi nodi sono

di tipo differente, includono nodi di tipo Element, nodi di tipo Attribute e nodi di tipo Text.

XPath definisce un percorso per calcolare uno string-value per ogni tipo di nodo. Molti tipi

di nodi possono avere un nome ed è per questo che XPath ingloba completamente tutto il

Namespace di XML (lo spazio dei nomi – il namespace – XML rappresenta un metodo

semplice per la qualificazione dei nomi degli elementi e attributi utilizzati nei documenti

XML, associandoli con dei spazi dei nomi identificati con indirizzi URI).

Pertanto, il nome di un nodo è individuato come una coppia formata da una parte locale e

un possibile namespaces URI non definito; questo metodo è chiamato Expanded-name.

Page 21: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 21 -

1.3.2 Modello dati XPATH

Il modello dati XPath tratta ogni documento XML come se fosse un albero composto da

nodi. Ogni nodo può essere uno dei seguenti sette tipi:

• radice (root)

Ogni documento possiede esattamente un solo nodo radice (root) che, come

indicato dal nome stesso, rappresenta la radice dell’albero dei nodi. Un nodo radice

non contiene alcuna rappresentazione della dichiarazione XML o della

dichiarazione del tipo di documento; non ha un nodo padre e il suo valore coincide

con il valore dell’elemento document;

• elemento (element)

Un nodo element rappresenta un elemento dotato di nome, URI di namespace, un

nodo padre ed una lista di nodi figlio, la quale può contenere ulteriori nodi element,

nodi commento, nodi istruzione e nodi testo. Un elemento è anche dotato di una

serie di attributi e un elenco di namespaces di riferimento, ma nessuno di tali oggetti

è trattato come nodo figlio del nodo element in esame. Il valore di un nodo element

coincide con il testo completo sottoposto a parsing che si trova tra il tag iniziale e

finale dell’elemento, dopo che tutti i tag, le istruzioni di elaborazione ed i commenti

sono stati rimossi.

• attributo (attribute)

Un nodo attributo è dotato di un nome, un URI di namespace, un valore ed un

elemento padre. Bisogna sottolineare che, nonostante gli elementi siano nodi padre

degli attributi, gli attributi non sono considerati nodi figli dei nodi element. Il valore

del nodo attributo corrisponde al valore dell’attributo normalizzato.

• testo(text)

Ogni nodo testo rappresenta il più lungo blocco contiguo di testo individuabile tra

due tag, istruzioni di elaborazione o commenti. Un nodo di testo ha un nodo padre

ma non può avere nodi figlio ed il suo valore corrisponde al testo del nodo stesso.

Page 22: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 22 -

• namespace

Un nodo di namespace rappresenta un namespace che abbia influenza su un

elemento o un attributo. Come avviene anche per i nodi attributo, ogni nodo di

namespace ha un elemento padre ma non è realmente figlio di tale elemento.

• istruzione di elaborazione (processing instruction)

Un nodo istruzione di elaborazione rappresenta un’istruzione dotata di un target di

dati sui quali operare, esso è dotato di un nodo padre ma non ha nodi figli.

• commento (comment)

Un nodo commento rappresenta un commento e, come nel caso precedente, è

dotato di un nodo padre ma non ha nodi figli.

La dichiarazione XML e la dichiarazione del tipo di documento non sono incluse nella

rappresentazione utilizzata da XPath per il documento XML, tutte le referenze a entità e le

sezioni CDATA vengono risolte prima di costruire l’albero XPath. Le referenze stesse,

quindi, non vengono incluse in specifici nodi dell’albero.

Ogni espressione XPath può assumere un valore che appartiene ai seguenti quattro tipi

fondamentali:

• boolean (booleano)

Un valore binario che può assumere solamente i valori true o false. Tali valori

vengono solitamente prodotti utilizzando operatori di confronto. XPath non offre

delle espressioni letterali per i due possibili valori di un booleano. Ciononostante, al

loro posto è possibile servirsi delle due funzioni true() e false();

• number (numero)

Tutti i numeri in XPath rispecchiano lo standard IEEE 754, per questo non sono

numeri floating-point rappresentati a 64 bit. I numeri includono i valori speciali Inf

(infinito), –Inf (infinito negativo) e NaN (not a number), utilizzati per rappresentare il

risultato di operazioni illegali, come la divisione per zero. Gli operatori per i numeri

sono i canonici operatori matematici: + (addizione), - (sottrazione), *

(moltiplicazione), div (divisione), mod (resto).

Page 23: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 23 -

• string (stringa)

Una stringa XPath rappresenta una sequenza di zero o più caratteri unicode. Le

stringhe letterali possono essere racchiuse tra apici sia singoli sia doppi, a seconda

delle esigenze. La concatenazione di stringhe usando il simbolo “+” non è

consentita, è necessario adoperare la funzione concat();

• node set (insieme di nodi)

Un insieme di nodi rappresenta una collezione di zero o più nodi di un documento

XML. I location path producono per la maggior parte insiemi di nodi.

La costruzione sintattica primaria in XPath è l’espressione (o path), questa viene valutata

per produrre un oggetto, che appartiene ad uno dei precedenti quattro tipi base:

Un’espressione viene valutata in base al contesto in cui si presenta. I contesti derivanti da

una espressione XPath possono essere:

• Un nodo (il context node)

• Una coppia di interi positivi diversi da zero (la context position e la context size)

• Un insieme di variabili vincolate

• Una libreria di funzioni

• Un insieme di dichiarazioni di namespace come input dell’espressione.

La context position è sempre minore o uguale alla context size.

Le variabili obbligatorie consistono in un insieme che ha come valori dai nomi di variabili ai

valori delle variabili. Il valore di una variabile è a sua volta un oggetto di un tipo specificato

precedentemente, oppure di un tipo supplementare.

La libreria di funzioni consiste in un insieme che va dai nomi delle funzioni alle funzioni

stesse. Ogni funzioni ha in input zero o più argomenti e restituisce sempre un singolo

risultato. Per una funzione contenuta nel Core di XPath vi si hanno sempre risultati nei

quattro tipi semplici.

I namespace consistono in un insieme di prefissi e di namespace URIs.

Le variabili obbligatorie, i namespace e le librerie di funzioni usati per valutare una sotto-

espressione sono sempre gli stessi che vengono usati per valutare ciò che contiene una

Page 24: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 24 -

espressione. La context position, la context size e il context node sono invece a volte

differenti quando si valuta ciò che contiene una espressione.

Molti tipi di espressioni cambiano il context node mentre solo i predicati cambiano la

context size e la context position.

Le espressioni XPath sono scritte come una sequenza di passi (steps) per giungere da un

nodo XML (il corrente “context node”) ad un altro nodo o ad un insieme di nodi.

Chiameremo da ora in poi le espressioni XPath col nome di XPath query.

La query ha la forma di un percorso che si può formare sull'albero e quindi composta di

nodi separati dal carattere “/” (carattere separatore che indica il percorso).

Ogni punto ha tre componenti:

Axis Specifier

Node Test

Predicate

In XPaths sono definite due notazioni, una, è l'abbreviated syntax , che essendo molto

compatta permette che XPaths sia scritto e letto in modo molto intuitivo e, in molti casi,

sono usati caratteri e costrutti familiari. La seconda si chiama full syntax ed è molto più

pesante, ma permette di specificare molte più opzioni ed è molto descrittiva se letta

attentamente.

Page 25: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 25 -

1.3.3 Sintassi di XPATH

1.3.3.1 Abbreviated e Full syntax

Abbreviated syntax

La notazione compatta permette di associare ai casi comuni molte abbreviazioni e

opzioni predefinite. L'XPath più semplice si presenta nella forma:

/A/B/C

Questa query seleziona gli elementi C che sono figli degli elementi B che a loro

volta sono figli.

XPath è una sintassi designata ad essere simile alla sintassi delle URI (Uniform

Resource Identifier) e alla sintassi dei Path dei file.

Le espressioni più complesse possono essere costruite specificando degli assi oltre

a quello del child axis che è quello predefinito. E’ possibile difatti inserire un node

test, o un semplice nome, o un attributo, che può essere scritto tra parentesi quadre

nella parte finale dell’espressione (dopo un intero passo).

Per esempio l'espressione:

A//B/*[1]

seleziona l'elemento ('[1]'), con qualsiasi nome ('*'),che è figlio('/') di un elemento B il

quale a sua volta è un figlio o altro, discendente più profondo ('//') di un elemento A

che è un figlio del contesto corrente (in quanto l'espressione non inizia con '/').

Page 26: Università Federico II di Napoli - unina.stidue.netunina.stidue.net/Applicazioni Telematiche/Materiale/TESI Raffaele... · Visual Studio .NET. ... del software è caduta sul C#,

- 26 -

Full (Expanded) syntax

Nella full syntax, ovvero sintassi non abbreviata, i due esempi precedenti sarebbero

stat scritti nel modo seguente:

/child::A/child::B/child::C

child::A/descendant-or-self::node()/child::B/child::*[1]

Qui, ad ogni passo dell’espressione XPath, gli assi (axis) (child or descendant-or-

self) sono stati specificati in modo esplicito, seguiti da due coppie di punti (::) seguiti

dai nomi dei nodi.

1.3.3.2 Axis

L'Axis indica il senso di percorrenza dell'albero del documento XML. Gli Axis disponibili,

nella sintassi completa ed abbreviata, sono:

child

default, non specificato nella sintassi abbreviata

attribute

descendant