Date post: | 02-Jan-2016 |
Category: |
Documents |
Upload: | vielka-salas |
View: | 25 times |
Download: | 1 times |
12 marzo 2001 1
Il progetto di miglioramento della qualità dei dati nell’Agenzia delle
Entrate
Dott. Salvatore CostaAgenzia delle Entrate
Direzione Centrale Sistemi e Processi
12 marzo 2001Agenzia delle Entrate2
La struttura organizzativa
1° gennaio 2001: Ristrutturazione del Ministero delle Finanze ed avvio operativo delle Agenzie fiscali– Agenzia delle entrate– Agenzia delle dogane– Agenzia del territorio– Agenzia del demanio– Ministero “snello”
12 marzo 2001Agenzia delle Entrate3
Il patrimonio informativo dell’Agenzia delle Entrate
Anagrafe dei contribuenti 81 mln. (CF attribuiti a PF) Dichiarazioni dei redditi 300 mln. Dichiarazioni I.V.A. 60 mln. Atti del Registro 70 mln. Conto fiscale 7,5 mln. Rimborsi I.V.A. 3,1 mln. Rimborsi IRPEF 64 mln.
12 marzo 2001Agenzia delle Entrate4
ENTIPREVIDENZIALI
CAMERE DICOMMERCIO
ENTI LOCALI
PUBBLICHEAMMINISTRAZIONI
AZIENDE FORNITRICIDI UTENZE
GUARDIA DIFINANZA
BANCHE
ORDINIPROFESSIONALI
ENTIASSICURATIVIPOSTE
I flussi di dati
12 marzo 2001Agenzia delle Entrate5
Rilevanza delle logiche di qualità
Enorme patrimonio informativo, da gestire secondo canoni di– Correttezza– Completezza– Coerenza di formato e di valore– Attualità (Tempestività di aggiornamento)
Difficoltà di approccio totale e definizione del primo dominio di intervento:Archivio Anagrafico delle Persone Fisiche (A.A.)
12 marzo 2001Agenzia delle Entrate6
Motivazioni della scelta A.A. contiene: CF, dati anagrafici, residenza,
decesso. CF: codice identificativo individuale
– È la principale chiave d’accesso a tutte le basi dati dell’Agenzia
– Tutti i rapporti tra PP.AA. e altri soggetti, pubblici o privati, vanno tenuti sulla base del CF
– È inserito nella carta d’identità elettronica Residenza
– Esigenza costante di corretta reperibilità del contribuente
12 marzo 2001Agenzia delle Entrate7
Metodologia di lavoro - introduzione
Con il supporto di Telcordia Technologies (1999) è stata definita una metodologia per la definizione di un piano di qualità dei dati
12 marzo 2001Agenzia delle Entrate8
Metodologia di lavoro
Definizione del sistema oggetto di analisi: Base dati dell’Archivio Anagrafico delle Persone Fisiche
Definizione di una lista di “macro problemi“– Non correttezza dati anagrafici (Comuni, AIRE)– Soggetti con doppia posizione in archivio– Obsolescenza dei dati di residenza e/o loro
mancata normalizzazione– Non correttezza e/o incompletezza dei dati di
decesso
12 marzo 2001Agenzia delle Entrate9
Descrizione dei flussi di dati in ingresso/uscita relativamente alle seguenti operazioni– Attribuzione nuovo CF– Variazione residenza– Variazione dati anagrafici– Acquisizione/correzione informazioni di decesso
Metodologia di lavoro
12 marzo 2001Agenzia delle Entrate10
Esempio: Attribuzione nuovo CF
Trigger Input Procedura Sistema
Qualità attuale dati sistema
Correttezza Tempestività Coerenza formato
Nascita con comunicazione dal Comune
Dati anagrafici dal Comune
Attribuzione CF online (integrata o manuale)
Alta se procedura integrata Media se richiede 1 data entry
Max tre mesi di ritardo Alta
Nascita con comunicazione in ufficio finanziario
Richiesta genitori
On-line TP da ufficio
Media se manca controllo con dati Comune. Alta se da certificazione Comune
Determinata dal cittadino. Tempo di attesa del sistema trascurabile
Alta
Richiesta del cittadino in ufficio finanziario
Richiesta del cittadino
On-line TP da ufficio
definita dal documento di identità. Richiede 1 data entry
Determinata dal cittadino. Tempo di attesa del sistema trascurabile
Alta
Allineamento una tantum con dati Comune
Batch dati Comune
Validazione tramite batch ad hoc
Alta per dati validati. Richiede 0 data entry
Bassa. Il successivo disallineamento è inevitabile.
Alta per dati validati.
12 marzo 2001Agenzia delle Entrate11
Esempio: Variazione di residenzaTrigger Input Procedura
sistema Qualità attuale dati sistema
Correttezza Tempestività Coerenza Formato
Registrazione della dichiarazione redditi
Dichiarazione Batch da archivio dichiarazioni
Determinata dal cittadino. Richiede data entry cittadino o data entry Banca o Poste
Determinata da acquisizione dichiarazione Minimo frequenza dichiarazione (4 mesi dalla presentazione)
Pari a quella dell’input
Segnalazione comune
Dati residenza da Comune
Online + TP
Alta se procedura integrata Media se richiede data entry
Determinata da ufficio comunale
Alta: consistente con regole della toponomastica locale
Segnalazione Ufficio contribuenti IVA
Dichiarazione di inizio attività o variazione dati contribuenti IVA
On-line TP
Pari a quella di input Richiede 1 data entry
Alta Pari a quella dell’input
Segnalazione cittadino
Dati autocertificati
On-line TP da ufficio
Pari a quella di input Determinata dal cittadino Pari a quella dell’input
Allineamento una tantum con dati Comune
Batch dati Comune
Validazione tramite batch ad hoc
Alta per dati validati. Ignota per dati non validati (richiede ‘riciclo’) Richiede 0 data entry
Bassa. Il successivo disallineamento è inevitabile
Alta per dati validati.
12 marzo 2001Agenzia delle Entrate12
Definizione dei data steward– Comuni
Detentori istituzionali dei dati anagrafici, di residenza e di decesso
– Uffici finanziari Tramite le transazioni di attribuzione / variazione CF,
variazione di residenza, acquisizione / variazione informazioni di decesso
– Contribuenti Invio di dichiarazioni / atti
Metodologia di lavoro
12 marzo 2001Agenzia delle Entrate13
Definizione di attributi di alto livello e meta-attributi
Metodologia di lavoro
Attributi alto livello
Attributi schema
Codice Fiscale PF [Persona Fisica].CF Dati Anagrafici PF [Persona Fisica].{Cognome, Nome,
Sesso, Anno Nascita, Mese Nascita, Giorno Nascita, Provincia Nascita, Comune di Nascita}
Dati Residenza Ufficiale PF
[Persona Fisica].{Comune, Provincia, Cap e Indirizzo Residenza}
Informazione Decesso PF
[Persona Fisica].{Flag Decesso, Data Decesso e Fonte}
12 marzo 2001Agenzia delle Entrate14
Definizione dei meta-attributi: – Chi: sorgente dell’informazione– Quando: data ultima modifica– Cosa: tipo di operazione– Stato: Non controllato, verificato corretto, verificato
non corretto, corretto Nella maggior parte dei casi tratta di riportare a
livello di schema dati parte delle informazioni presenti nei log delle transazioni.
Metodologia di lavoro
12 marzo 2001Agenzia delle Entrate15
Definizione dei vincoli di qualità– Definiti per ogni attributo di alto livello, sulla base
della lista dei macro problemi, con riferimento alle dimensioni della qualità rilevanti per ciascun attributo
Definizione degli indicatori di qualità– Definiti, a partire dai vincoli di qualità; devono
essere grandezze misurabili che evidenziano quanto i dati rispettano i vincoli definiti
Metodologia di lavoro
12 marzo 2001Agenzia delle Entrate16
Definizione dei vincoli - schema
Dimensione Qualità
Tipo Dato
Data Steward
Accuratezza valore, Precisione
Tempestività Completezza valore
Coerenza formato
Coerenza valore
<attributo alto livello>
<a chi appartiene>
< vincoli parametrici>
12 marzo 2001Agenzia delle Entrate17
Indicatori di qualità (esempio)
Dato Requisito di qualità
Controllati Validati Comuni
Dati anagrafici
Coerenza con i Comuni
100% dei dati pervenuti
87%
Dati anagrafici deceduti
Coerenza con i Comuni
100% dei dati pervenuti
71%
12 marzo 2001Agenzia delle Entrate18
Indicatori di qualità (esempio)
Dato Requisito di qualità
Controllati Validati
Dati sul decesso
Completezza 100% 93%
Dati sul decesso
Coerenza con i Comuni
100% 14%
12 marzo 2001Agenzia delle Entrate19
Il piano di intervento sui dati - Allineamento
Allineamento con le Anagrafi comunali, secondo le regole definite di concerto con il Ministero dell’Interno– Fase iniziale di confronto: il Comune invia l’intera
anagrafe dei residenti. Se c’è identità completa di dati anagrafici, aggiorno l’A.A. con il dato di residenza
12 marzo 2001Agenzia delle Entrate20
(segue)– Fase di trattamento difformità (attivata
prioritariamente con i Comuni che partecipano alla sperimentazione CIE): se esiste nell’A.A. un unico soggetto che differisce per un solo dato anagrafico e con residenza “somigliante”, si aggiorna l’A.A. (dati anagrafici e residenza) dopo la verifica svolta dal Comune
Il piano di intervento sui dati - Allineamento
12 marzo 2001Agenzia delle Entrate21
(segue)– Trattamento casi residuali: si mettono a
disposizione del Comune gli strumenti per l’aggiornamento online dell’A.A. (dati anagrafici)
A regime (mantenimento dell’allineamento)– Il Comune invia periodicamente le variazioni
anagrafiche (nascite, variazioni di residenza, decessi)
Il piano di intervento sui dati - Allineamento
12 marzo 2001Agenzia delle Entrate22
Alcuni dati numerici – Fase trattamento difformità
Comune % Allineamento iniziale
% Allineamento dopo trattamento difformità
Bologna 95.3 99.0
Cremona 88.1 98.2
Genova 84.2 95.4
Imola 98.6 98.9
Livorno 93.6 97.4
Milano 88.9 95.6
Perugia 89.2 95.3
Siena 93.4 96.9
Torino 90.9 97.7
Trieste 94.7 97.5
12 marzo 2001Agenzia delle Entrate23
Obiettivo: costituire una banca dati che contenga per ogni soggetto le informazioni di spedizione, secondo gli standard postali
Convenzione con Poste Italiane S.p.A.: servizio di normalizzazione e riconoscimento degli indirizzi
Il piano di intervento sui dati – Normalizzazione degli indirizzi
12 marzo 2001Agenzia delle Entrate24
Unicità dell’interlocutore– 1 vs. 8100, non trattabili uniformemente e non tutti
informatizzati/normalizzati
Fornitura di servizio e non di stradario– Non ci sono carichi di sviluppo software per l’Agenzia, a meno
dell’alimentazione del sistema
Possibilità di integrazione con gli esiti di recapito e la motivazione dell’eventuale mancato recapito
– Verifica dell’efficacia del servizio misurata dal sistema stesso
Il piano di intervento sui dati – Normalizzazione degli indirizzi
12 marzo 2001Agenzia delle Entrate25
Identificazione dei soggetti con doppie posizioni in A.A. – Rilasciati più codici fiscali, a seguito dell’indicazione
di dati anagrafici non coincidenti.
Determinazione del CF corretto Riunificazione delle posizioni (collegamento)
Il piano di intervento sui dati – Individuazione dei CF duplicati
12 marzo 2001Agenzia delle Entrate26
Analisi dei duplicati già noti (collegati) Ricerca dei “simili”, riconducendoli alle classi di
errore individuate nell’analisi Criteri di rilevazione di effettiva duplicazione
– Indirizzo molto simile– Solo un soggetto è confermato dal Comune di
residenza– Solo un soggetto presenta atti e/o dichiarazioni– I soggetti differiscono solo per il Comune di nascita
e uno dei due è un Comune soppresso o aggregato
Il piano di intervento sui dati – Individuazione dei CF duplicati
12 marzo 2001Agenzia delle Entrate27
Sperimentazioni
Nel corso della stesura del progetto sono state effettuate sperimentazioni su campioni di dati quale ausilio alla definizione di indici (anche se su base campionaria) sui quali tarare i valori attesi nella misurazione di partenza
12 marzo 2001Agenzia delle Entrate28
SperimentazioniControllo Indirizzi Sono stati effettuati interventi di:
– Bonifica– Normalizzazione– Riconoscimento degli indirizzi
su un campione di comuni medio-piccoli Le elaborazioni sono state effettuate da due
diverse società italiane
12 marzo 2001Agenzia delle Entrate29
Sperimentazioni
Controllo indirizzi - Risultati
Record elaborati
Record Normalizzati
Indice di Normalizzazione
Address Software
275.365 264.081 0,959
APTA System
275.365 222.756 0,809
L’indice è dato da rapporto dei normalizzati sul totale del campione
12 marzo 2001Agenzia delle Entrate30
Sperimentazioni Identificazione soggetti duplicati
– Sono state effettuate sperimentazioni con Telcordia e APTA system
– Entrambe hanno utilizzato sistemi basati su criteri di “matching” e “edit distance” tra le informazioni anagrafiche (codice fiscale,cognome, nome, data e comune di nascita)
12 marzo 2001Agenzia delle Entrate31
Sperimentazioni
Identificazione soggetti duplicati (segue) Telcordia ha rilevato un indice di sospetti duplicati del
4,48% APTA system ha rilevato indici variabili tra 0,15% e
1,5% in dipendenza dei filtri di correlazione utilizzati.
12 marzo 2001Agenzia delle Entrate32
Sperimentazioni
Identificazione soggetti duplicati (segue) I diversi filtri sono stati realizzati utilizzando
alternativamente tutte o parte delle informazioni:– Filtro A: soggetti aventi Codice Fiscale simile, Anagrafica
simile, Indirizzo simile e Località simile (0,15%) – Filtro B: soggetti aventi Codice Fiscale simile, Anagrafica
simile, Indirizzo simile o diverso e Località simile o diversa (0,85%)
– Filtro C: soggetti aventi Codice Fiscale simile o diverso, Anagrafica simile, Indirizzo simile e Località simile (1,5%)
12 marzo 2001Agenzia delle Entrate33
Revisione dei processi nell’ottica di acquisire i dati alla fonte– Attribuzione CF ai neonati Comuni– Attribuzione CF ai non residenti Consolati– Attribuzione CF extracomunitari Questure– Variazione residenza, dati anagrafici, decesso
Comuni
Il piano di intervento sui processi
12 marzo 2001Agenzia delle Entrate34
Revisione delle procedure di data entry– Sensibilizzazione degli operatori dei vari organismi
abilitati verso la qualità dei dati immessi Circolari di istruzione Piani formativi per il personale
– Controlli stringenti per evitare l’introduzione di errori Evitare duplicazioni Accuratezza e completezza dei dati
Il piano di intervento sui processi
12 marzo 2001Agenzia delle Entrate35
Revisione dei flussi di aggiornamento– Le dichiarazioni dei redditi telematiche consentono
maggiore tempestività di aggiornamento della residenza e limitano gli errori di data entry
– Verranno acquisite telematicamente anche le dichiarazioni di successione correttezza e tempestività del dato
Il piano di intervento sui processi
12 marzo 2001Agenzia delle Entrate36
Il monitoraggio del livello di qualità
Implementazione delle informazioni nelle basi dati: chi, quando, cosa, stato
Rilevazione degli indicatori del livello di qualità dei dati sottoposti a trattamento
Rilevazione degli incrementi di qualità ottenuti e loro confronto con quelli attesi
Registrazione e storicizzazione dei risultati Prodotti di data warehouse