Big data.

E’ assai difficile spiegare come mai nel mondo dell’ IT un calcolo fatto pochi mesi prima diventi inattuale o superato. Eppure e’ cosi’. Ricordate quando spiegai per quale motivo semplicemente mettere in rete tutti i dati dello stato avrebbe creato piu’ problemi che altro? Beh, adesso arrivano le strategie Big Data, e cambia tutto. Con risvolti piu’ ampi.

Uno dei dati piu’ impressionanti sulla pubblica amministrazione italiana e’ che consiste, in tutto, di 3.600.000 dipendenti. Ora: il numero di per se’ e grande, ma  diventa ancora piu’ sorprendente capire per quale motivo essi siano pagati. Ovvero, se andiamo a fare una qualche analisi del loro lavoro, essi svolgono(con rare eccezioni tipo polizia, sanita’ ed altri) un lavoro che oggi descriveremmo cosi’:

“DI LAVORO IO FACCIO IL DATABASE”

Prendiamo per esempio il catasto del posto ove vivete. Esso si limita a conservare i dati delle costruzioni esistenti sul territorio. Questo lavoro, nel mondo dell’informatica, ha un nome: il database.
Le decine di migliaia di persone che lavorano in un catasto, cioe’, di lavoro fanno… il database.
Cosi’ come tutte le cosiddette “anagrafi”. L’anagrafe del vostro comune e’ , in ultima analisi, un database delle persone, delle famiglie e degli indirizzi che esistono nel comune. Se volessimo costruire un database di tutti gli italiani, del resto, parleremmo di circa 60 milioni di record, piu’ 23 milioni di famiglie. Si tratta quindi di un totale di 10^8 record. Niente che una squadra di DBA non possa mantenere con facilita’.
Anche ammesso che si tratti di un KB per record , rimane un centinaio di gigabytes di database. Niente di che. Cosi’ la domanda e’: ma perche’ diavolo abbiamo MIGLIAIA di persone negli uffici anagrafe?
Lo stesso dicasi del PRA, e di tantissimi uffici statali: tutto cio’ che fanno e’ di agire come un database, nel quale si conservano dati e li si restituisce come “certificati di” al cittadino. Niente che un database + sito web non potrebbero fare anche meglio.
Il punto pero’ sta nel fatto che non sempre e’ tutto cosi’ facile. Se per esempio volessimo tenere traccia (come sostengono quelli che parlano di denaro elettronico, cioe’ un denaro piu’ anonimo e difficile da inseguire di quello materiale(1))  di ogni transazione bancaria del paese ci troveremmo ad avere contro un problema di “big data”.
Il problema del big data sta nel fatto che la quantita’ di dati potrebbe anche crescere sino a renderne impossibile la gestione. Siamo nella condizione in cui ‘spazzolare” tutti i trasferimenti bancari richiede molto piu’ tempo di quello che abbiamo a disposizione.
Il problema non e’ banale: sebbene tutti siano abituati a pensare che l’informatica ti dia i dati “in tempo reale”, nella realta’ puo’ succedere che la massa di dati sia cosi’ elevata che non potete cercare l’informazione in tempo utile.
Io dispongo di una infrastruttura di tutto rispetto, ma con un numero tipo 6.5 miliardi di sms mandati a spasso da tenere nei log, se intendo capire che fine abbia fatto un singolo sms e mi chiedete una query (che fine ha fatto l’sms inviato da 01234567 a 09876543 il giorno tal dei tali con tale messageID?) , impiego quasi cinque minuti ad avere una risposta. E 6.5 miliardi di SMS da tenere tra i log sono solo un sistema che fa M2M (machine to machine), o M2U (machine to user)  immaginate il resto, visto che gli sms user2user sono una quantita’ mille volte piu’ grande.
Ovviamente questo e’ un problema che deve avere una soluzione, direte voi, se Facebook ha miliardi di utenti e Google indicizza tutta quella roba. Verissimo.  E devono aver trovato una soluzione anche al CERN, visto che per trovare il Bosone di Higgs hanno spazzolato quantita’ simili di dati.
Tutte queste strategie prendono oggi il nome di “Big Data”. Si intende con questa etichetta una serie di tecnologie (MapReduce/Hadoop, VoltDB, Clustrix, Cloudscale, MPI+BSP, Pregel, Dremel, Percolator…etc etc)
Il “classico” esempio e’ MapReduce di Google, e di Hadoop. http://hadoop.apache.org . Si tratta di una tecnologia sviluppata quando Google si rese conto che i normali database non riuscivano piu’ a sostenere il traffico non tanto per via del traffico, ma per via del fatto che una ricerca doveva spazzolare quantita’ di dati tali da superare le possibilita’ di I/O di qualsiasi sistema esistente.
L’idea era di federare sistemi che cercassero in parallelo, cosa che poi implicava un meccanismo per il quale il fortunato gridasse “trovato! fermatevi pure” oppure no (se volevano trovare ogni occorrenza), e tante altre strategie buone per velocizzare le ricerche: Map Reduce significa qualcosa come “la biblioteca puo’ anche essere lenta, l’importante e’ che leggere il catalogo sia facile e veloce”.
Sebbene nessuno di questi sistemi sia perfetto (e diverse case siano tornate al vecchio SQL dopo aver provato MapReduce ed altri –oltre un certo limite chi sa sa e chi non sa non dovrebbe vendersi-) , c’e’ una grande attenzione riguardo a questi modelli, e ormai le soluzioni big data si fanno concorrenza tra loro con un ritmo di miglioramento impressionante.
Allo stato attuale, quindi, sarebbe gia’ perfettamente possibile fare quello che alcuni anni fa (non tanti) era impossibile, ovvero prendere TUTTI gli impiegati e gli uffici che oggi “di lavoro fanno il database” e mandarli a casa, sostituendoli con una squadra di 10-15 persone.
Il vero problema e’: conviene?
Divertente come le “analisi” del pubblico impiego italiano NON siano molto analitiche. Voglio dire, prendiamo questo: http://www.rgs.mef.gov.it/_Documenti/VERSIONE-I/RGS-comuni/Note-per-l/2010/Pubblicato1/Sintesi-ultimo-triennio-2007-2009.pdf
questo documento sfata moltissimi miti.
Il secondo punto e’ che non sono affatto mal pagati: il loro reddito medio e’ 34.497 euro nel 2009, quindi in linea col reddito procapite nazionale.
Innanzitutto i dipendenti pubblici costano 168 miliardi/anno, quindi circa un 10% del PIL. C’e’ poco da ottenere tagliando il personale. Licenziarli tutti, cioe’, porterebbe risparmi per il 10% del PIL -lasciando poi il paese senza sanita’, polizia, eccetera.
Se supponiamo di mandarne a casa diciamo il 20% mediante l’informatizzazione, avremmo risparmiato qualcosa come il 2% del PIL. Questo sarebbe sicuramente un bene in questo periodo.
 Adesso la vera domanda e’: CHI SONO i dipendenti che di lavoro fanno i database? Anagrafi di ogni genere per persone, famiglie, automobili, motorini, archivi, case, proprieta’?
Il problema si complica, per una ragione: su 9870 amministrazioni pubbliche, solo 1350 sono nazionali (cioe’ dipendono da Roma), mentre il resto e’ puramente locale. http://saperi.forumpa.it/story/65448/le-pa-ai-raggi-x-quante-sono-e-quanto-costano
La PA piu’ gigantesca in assoluto e’ la scuola. Segno che lo stato NON STA AFFATTO spendendo poco per la scuola, anzi. Si tratta di una vulgata sindacale: semmai il problema e’ che spende troppo in stipendi! Comunque, non e’ facile pensare che quei dipendenti si possano facilmente sostituire con un database.
I ministeri pesano pochissimo: chi dice che il problema siano i ministeri sta sbagliando: la verita’ e’ che la parte del leone la fanno LE AMMINISTRAZIONI LOCALI. Ovvero: Roma non e’ tutto sommato cosi’ ladrona quanto il vostro municipio preferito.
Ma a parte questo, andare a vedere bene, le uniche cifre che saltano agli occhi sono quelle dei “Dipendenti non economici”, e delle “Regioni ed autonomie locali”, : non e’ tuttavia facile avere la loro distribuzione per funzioni. Ovvero, di sapere chi si occupa esclusivamente della conservazione di dati e documenti.
A dire il vero in questo il problema non e’ semplice: in fondo anche una biblioteca comunale di mestiere fa il database.
Cosi’ potrei immaginare un mondo in cui:
  1. Tutte le funzioni di anagrafe sono sostituite da una interfaccia online e da un database.
  2. Tutte le biblioteche pubbliche d’italia sono sostituite da una interfaccia online e da un database. (2)
  3. Tutte le funzioni di uffici del registro sono sostituite da una interfaccia online e da un database.
  4. Tutte le funzioni di archivio sono sostituite da una interfaccia online e da un database.
Un tempo tutto questo era impensabile. Bastava mettersi ad immaginare l’architettura per convincersi del fatto che avrebbe crashato e non avrebbe mai funzionato. Oggi, i sistemi “big data” stanno iniziando a diventare affidabili  e a costare cifre ragionevoli, cosi’ inizia a diventare ragionevole l’idea di usarle per la PA. (3)
LA verita’ qual’e’? La verita’ e’ semplicemente che quei 600.000 che manderemmo a casa sono almeno 1.200.000 voti, che su 44 milioni fa il 2.7% dei voti. E poiche’ si tratta di dipendenti delle autonomie locali per la stragrande maggioranza, chi blocca questo processo non e’ il governo oppure il ministero, ma il vostro amato sindaco, presidente di regione, presidente di provincia.
Certo, bisognera’ spiegare come mai gestire 60 milioni di record anagrafici in Italia costi piu’ dipendenti di quelli che in google gestiscono milioni di volte piu’ dati: e’ possibilissimo che chiedendo a Google o a Facebook di sostituire tutti gli uffici anagrafe e tutti gli archivi e tutte le biblioteche e tutti gli uffici del registro essi possano vendervi il sistema che lo fa per cifre molto piu’ basse dei costi attuali.
Ma la vera domanda che dovreste farvi e’: su un database di 60 milioni di record fare una query -se il database e’ costruito bene- mi costa molto meno di un secondo. Se chiedete uno stato di famiglia o un certificato di nascita perdete minuti se non ore.
Quanto costa tutto questo tempo perso?
La pura e semplice verita’ e’ che quasi il 20% dei dipendenti pubblici di mestiere fa il database. E non c’e’ piu’ ragione di tollerare uno spreco di risorse del genere.
Ditelo al vostro sindaco: un solo server puo’ sostituire la biblioteca comunale.
Uriel
(1) Su ogni banconota c’e’ un numero di serie, per cui la riconoscete anche dopo un passaggio. Sul denaro elettronico ogni euro e’ identico ad ogni altro.
(2) Cosi’ non ci sarebbe bisogno di restituire i libri, btw.
(3) In effetti il mondo della scuola potrebbe decidere di scrivere i libri internamente e distribuirli in formato elettronico e usare libri autoprodotti. Tanto, sarebbero sempre gli stessi professori che li scrivono oggi a scriverli dopo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *