La cultura HOWTO-Agnostic

C’e’ una cosa che mi ronza per la testa da qualche giorno, per via di un episodio al quale ho assistito sul lavoro. Ci ho pensato un pochino,ma alla fine ho concluso che si tratta di una cosiddetta “punta dell’ iceberg” , cioe’ dell’epifania di un fenomeno molto diffuso. Per capire l’evento, prima devo fare alcune premesse.

Come capita spesso ANCHE nel mondo della telefonia e dei servizi annessi, ogni rete o sistema di dispositivi ha uno SLA. Lo SLA (Service Level Agreement) e’ un contratto (anche se spesso non e’ un vero contratto con qualcuno, ma una semplice definizione della qualita’ del servizio) nel quale si definisce con chiarezza la qualita’ del servizio da fornire.  Avrete notato, per fare un esempio, che durante un blackout elettrico i telefoni (almeno per qualche ora) continuino a funzionare. Questo e’ dovuto al fatto che si e’ concordato con il ministero degli interni che la polizia , i pompieri, le ambulanze , eccetera, debbano essere raggiungibili per telefono almeno per un certo numero di ore dopo l’inizio di un blackout elettrico.

Questo accordo richiede che ci siano delle  sale batteria dentro Telecom Italia, che alcuni dispositivi abbiano alimentazione elettrica autonoma, eccetera: quello che importa e’ che un simile accordo diventa una voce dello SLA, ove si dice “entro tot ore dall’inizio di un black out i telefoni devono funzionare ancora”. Lo SLA poi viene usato anche verso i fornitori, cui ovviamente viene chiesto di fornire dei servizi e dei sistemi coerenti con lo SLA.(1)

In ogni caso, siccome le reti di telefonia e i servizi collegati sono soggetti a SLA, anche il sistema di cui mi occupo e del quale stiamo facendo BAU (Business As Usual, le attivita’ svolte dopo che il servizio ha iniziato a lavorare e che consistono, di fatto, nel garantire lo SLA(2)), e’ soggetto a monitoraggio, attraverso una serie di “probes” e di sonde: ho scritto circa 680 allarmi che rappresentano la rilevazione, da parte di una sonda di rete e del relativo analizzatore di pacchetti, di una condizione anomala.(3)

Essi vengono inviati, attraverso un sistema che fa HP (Openview) ad un’azienda che si occupa di recepire l’allarme, capire cosa stia succedendo, e girare l’allarme al giusto dipartimento (rete, database, interconnessione, sistemi operativi, etc) l’allarme che hanno visto.

Questa specie di FrontDesk prima era in Germania, ma oggi e’ stato spostato in una nazione “emergente”, con grande disappunto dei tedeschi, che attribuiscono la scelta ai costi.

Il fatto: poiche’ a turni alterni sono reperibile, cioe’ chiamabile per emergenze se ne accadono, onde io intervenga accedendo da casa ai sistemi, sabato notte verso le 3 ho ricevuto una chiamata di emergenza. Di per se’ non era una cosa grave e ho riportato i sistemi in attivita’ in pochi minuti: dovendo rispettare uno SLA, faccio scattare un allarme PRIMA che l’anomalia diventi una mancanza di servizio. Il sistema cioe’ poteva resistere in quelle condizioni per qualche ora, e quindi non e’ mancato alcun servizio agli utenti.

Il problema e’ che a chiamarmi e’ stato un collega tedesco che accidentalmente era collegato ai sistemi(4) e non l’azienda del paese in via di sviluppo che ha preso questo appalto. Cosi’ , siccome mi aspettavo la chiamata da loro, ho chiesto un chiarimento al management, e si e’ visto che questi signori mi avevano aperto una chiamata sul sistema, ma era una chiamata di livello 3 (degradazione delle performance, 24 h per risolvere il problema) e non un allarme di livello due (tre ore per risolvere il problema, minaccia reale) come io avevo scritto l’allarme.

I tedeschi hanno reagito dicendo che questo e’ quello che si ottiene quando si danno i servizi in mano alle scimmie, e che adesso avrebbero aperto un’inchiesta interna, e che quando questa cosa veniva fatta in GErmania un allarme di livello due tirava giu’ dal letto il Kaiser in persona veniva mappato con un sanguinolento allarme di livello due, perche’ i tedeschi sanno distinguere il due dal tre , non come le scimmie che hanno imparato a contare due giorni fa.(come italiano avrei dovuto sentirmi offeso. POi mi sono ricordato che LORO usano un alfabeto latino e noi NON incidiamo rune sulle pietre, e cosi’ ho avuto compassione per loro; povere scimmie albine)

Cosi’, un tizio in Africa e’ stato cazziato brutalmente, ed invitato a venire immediatamente da me a giustificarsi , genuflettersi con aria contrita e chiedere umilmente scusa. Onestamente mi sarebbe bastato capire perche’ si sia verificata questa cosa e come evitarla con una semplice email, ma quando si tratta di criticare e dileggiare il lavoro altrui, lo standard ISO spetta ai tedeschi.

Mi trovo quindi imbarazzatissimo di fronte ad un tale Tamer, che si presenta alla mia scrivania con il suo portatile e vuole parlare di cosa sia successo. Poiche’ come italiano sono irrimediabilmente (ed orgogliosamente) figlio dell’umanesimo, ho preferito (inconsciamente, eh, che non penso all’umanesimo il lunedi’ mattina ) aprire le danze chiedendo semplicemente “senti, le scuse non mi interessano e non le ho chieste io: facciamo qualcosa di utile, e spiegami in che modo voi lavorate”.

Al che il signor (Dottor, a dire il vero) Tamer ha preso il suo portatile, ha aperto il suo MAthematica (e solo in quel momento ha preso 10.000 punti ai miei occhi ormai distrutti da gente che lavora con powerpoint e visio) e mi ha mostrato un pochino del suo lavoro.

Allora: questa azienda di “scimmie” ha preso gli ultimi 27.000 allarmi arrivati da noi (circa un mese) e ci ha fatto “un pochino” di statistica inferenziale. DIco “Un pochino” come eufemismo, perche’ quello era un lavoro coi coglioni. MA con TANTI coglioni. Grossi, se capite cosa intendo.

Questi hanno modellizzato una prima area, che chiamano “born time”, nella quale anche aprendo un allarme non si migliora la prestazione  finale del sistema. Tuttavia, se l’incidente non viene risolto prima aprendo la chiamata agli specialisti in quel periodo di tempo, moltissimi allarmi “spot” (anomalie dell’attivita’ solare che calano il QoS , fulmini che producono spikes sulle celle, etc) nascono e muoiono in quell’intervallo.

DOpodiche’ seguiva tutta una serie di modelli (sono 3 giorni che leggo quel documento e non sono sicuro di aver capito bene tutto, ma capisco che cosa abbiano fatto e quanto bene lo abbiano fatto) attraverso i quali l’azienda in questione stabilisce dei pesi da affibbiare alla priorita’ che noi assegnamo ai problemi. L’Azienda di Tamer non mette in dubbio la priorita’ e la gravita’ degli allarmi che io scrivo, semplicemente considera anche il resto del processo (la risoluzione dei problemi, con struttura annessa, e relativo comportamento) e moltiplica il mio allarme per un numero calcolato alla luce dei comportamenti rilevati. Inoltre, stabilisce quando aprirlo con una curva di efficienza che mostra, a seconda del tipo di allarme, quale sia il momento migliore per aprire la chiamata.

Il tutto rilevato tramite dati reali, e alla fine segue una simulazione ove si mostra che mappando gli allarmi alla tedesca (livello due -> priorita’ due) l’efficienza fosse peggiore.

DI fronte ai numeri posso dire poco, e posso solo concludere una cosa; l’azienda di Tamer ha fatto BENE a comportarsi in quel modo, alla luce dei numeri. Non c’e’ nulla che io possa replicare: infatti ho ringraziato Tamer per il suo lavoro, per il chiarimento, e ci siamo ripromessi che per simili piccole cose non sarei piu’ passato per il management, ma avrei semplicemente comunicato con lui direttamente.

Il vero problema e’: chi e’ la scimmia?

Sono scimmie gli operatori tedeschi che, molto meccanicamente, associano un allarme di gravita” due ad una chiamata di priorita’ due , o i signori del maghreb che ti fanno statistica inferenziale sugli allarmi e calcolano curve di massima efficienza?

Lo dico perche’ come italiano io stesso sono, nel mondo delle nazioni ariane, una “scimmia”. Questa domanda mi si e’ svelata quando ho fatto la mia relazione alla riunione delle “Lessons We Learnt”, appuntamento settimanale con l’inutile altisonanza dei processi di fuffa-management.

Un muro. Se avessi parlato con un muro probabilmente non avrei ottenuto di meglio. Non solo questi manager tendeschi non hanno accettato per principio che questa gestione fosse migliore della loro(5), figuriamoci se quelle scimmie sono meglio del “mitico sistema tedesco” , ma hanno rifiutato di leggere i dati delle simulazioni.

Quando hanno capito che io stavo iniziando ogni frase con “it is a fact”, uno di loro ha trovato la “magnifica frase che sembra sensata e chiude la questione”: uscirsene con queste frasi e’ il modo col quale nei paesi ariani si rifiuta di ammettere di avere torto, e di averlo avuto per mancanza di intelligenza.

“Questo sistema puo’ essere buono, ma non risponde alle nostre aspettative” (doesn’t fit our expectactions) . La frase vi sembra sensata? No, non lo e’.

CHe un sistema di gestione degli allarmi risponda alle aspettative di chi progetta un sistema e’ irrilevante, perche’ esso deve rispondere a delle “aspettative” che si chiamano , appunto, SLA.Il fatto che le persone chiamate a risolvere i problemi si comportano come io, che ho messo in piedi il sistema di monitoraggio, mi aspetto, e’ irrilevante. Il compito di Tamer non e’ di comportarsi come io vorrei, ma di comportarsi nel piu’ economico dei modi con il quale si puo’ rispettare lo SLA. E se la qualita’ del servizio migliora facendo come fa la ditta di Tamer, che di mestiere gestisce allarmi, evidentemente hanno ragione loro.

La “meravigliosa frase che chiude la questione” in realta’ serve a nascondere una semplice cosa: che il glorioso sistema tedesco, che sembra cosi’ “svizzero” perche’ mappa RIGOROSAMENTE un livello due con una priorita’ due, in realta’ e’ molto sistematico  ma poco intelligente.

E la loro soluzione a questa carenza, cioe’ un processo piu’ complesso ma sempre sistematico (mai sia che qualcuno debba pensare, e prendere una decisione, eh) che si sforzi di implementare a livello di procedure i vantaggi dell’intelligenza. LA loro proposta per ottenere lo stesso risultato dell’azienda di Tamer era di introdurre ben 16 categorie di incidenti anziche’ 4, in modo da poter scrivere una tabellina semplice, per le scimmie tedesche, che mappi ogni incidente uno ad uno con una chiamata con un certo livello di priorita’ e un certo tempo di chiamata.

In pratica, chi accusa Tamer di essere una scimmia , come modo naturale di operare ha quello che definirei ” l’evoluzione di un frigorifero”, cioe’ “apro la porta -> accendo la luce”, con molte porte e molte luci.

Perche’ questo avviene? Avviene perche’, come mi ha fatto notare il manager, a lui non interessa e non deve interessare il dettaglio di come lavora Tamer, ma solo il “deliverable”.

Questo, signori, e’ MALE.

LA differenza tra Gil Amelio e Steve Jobs, per dire, e’ che a STeve Jobs interessa anche l’ HOWTO. E il motivo per il quale Microsoft e’ in lento declino da quando Gates sta mollando la corda e’ che nessuno si interessa piu’ a come si fanno le cose, che per i manager e’ pura stregoneria che avviene in qualche paese di scimmie.

Ma non e’ solo questo il problema:  il problema e’ che ragionando cosi’ nessuno si sforza piu’ di migliorare il “come”, di migliorare i processi produttivi. Tanto, il manager che deve prendere questa decisione non e’ interessato a come si costruisca l’automobile, ma solo al colore dell’automobile.

Saranno 20 anni che i sistemi produttivi tedeschi non vengono migliorati. Le loro tecniche di gestione della produzione risalgono agli ultimi anni ‘80. Il motivo per cui lo notiamo poco e’ che i metodi produttivi tedeschi erano molto robusti negli anni in questione, e quindi “tengono ancora botta”.

Ma la semplice realta’ e’ che ritenendosi gia’ perfetti questi signori stanno rifiutanto qualsiasi miglioramento, e lo rifiutano a maggior ragione se l’idea viene da qualche nazione straniera, o peggio da qualche nazione che loro considerano “abitata da scimmie”. Ma nel paese d’origine di Tamer, migliorare e’ semplicemente una necessita’ per la mera sopravvivenza.

E cosi’, oggi l’azienda di Tamer fa il lavoro che i tedeschi facevano, lo fa meglio e costa meno. E costerebbe meno anche se si spostasse in blocco in Germania con il costo della manodopera locale.

E cosi’, il mio consiglio e’: attenti a pensare che le aziende delocalizzino solo per i costi. CI siamo parlati addosso riguardo alla nostra superiorita’ e alla nostra qualita’ superiore cosi’ tanto che abbiamo smesso di migliorare i nostri processi. L’azienda cinese che secondo Il Giornale ci fa “concorrenza sleale” costerebbe meno anche se aprisse qui in Italia assumendo lavoratori italiani. Perche’ mentre noi ci parlavamo addosso di quanto siamo bravi e di quanto siamo perfetti, loro pensavano di essere delle scimmie e si sforzavano di non esserlo piu’.

Questa e’ la ragione per la quale penso che questi signori abbiano da dire e da fare quanto vogliono, ma alla fine se io , italiano, sono qui da loro costo PIU’ di un tedesco, il motivo non sono i costi. Ma in Italia sento gli stessi discorsi vero la CIna, l’ India, eccetera. Un giorno, qualcuno (un manager tosto e carismatico, di solito) avra’ il coraggio di dire in TV qualcosa come “guardate che non delocalizziamo per i costi inferiori, ma per la qualita’ superiore del prodotto”.

E li’, il nostro narcisismo subira’ un duro colpo.

Uriel

(1) Molti dei problemi dell’amministrazione pubblica sono legati al fatto che lo SLA non e’ chiaro, o non e’ mai stato definito, e se e’ stato definito non e’ pubblico e comunque non implica, come nel mondo privato, una punizione o un pagamento di danni da parte del fornitore che rompa lo SLA. Curioso come i forzitalioti, che millantano la “cultura dell’impresa”, non abbiano MAI nominato un simile documento, ove si dica “il tal processo deve durare al massimo tot giorni”, o “il cittadino malato deve trovare posto in ospedale entro tot ore”.

(2) LA terminologia ITIL v3 parla di SLA quando si tratta di qualcosa tra azienda e fornitore o tra azienda e cliente, e di OLA quando si tratta di un documento interno tra il settore dell’azienda che materialmente garantisce il servizio ed il resto dell’azienda, per esempio gli azionisti che vogliono vedere la ciccia a fine anno.

(3) Nel celebre romanzo “neuromancer” queste venivano chiamate impropriamente IDS, e bruciavano le sinapsi dei cybercowbows usando una non specificata “energia”: in realta’ sono dispositivi passivi che si limitano a sconnettere fisicamente un sistema o a segnalare una condizione anomala.

(4) Nel futuro, gli archeologi si chiederanno che cavolo ci facesse tale A:F. collegato , il sabato notte alle 3, e quante seghe possano portare un uomo a collegarsi alle 3 di notte di sabato solo per vedere se i sistemi sono su. A questa domanda il collega tedesco ha risposto che lo ha fatto perche’ era ubriaco, e mi sento confortatissimo sapendo che un sistemista ubriaco si collega ai sistemi coi diritti di amministratore. Porta bene, davvero, ma questa e’ la perfezione tedesca , gente: male che vada si chiama un italiano a rimettere le cose a posto.

(5) Per fortuna i servizi nei paesi in via di sviluppo costano di meno. Se non ci fosse questo, non sapremmo cosa inventare quando un’azienda meghrebina lavora meglio di una europea e vince per questo l’appalto.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *