Il ruolo di pubblicitari e CDN nello spionaggio digitale.

Mi chiedono come mai M5S sia stato cosi’ “freddo” rispetto alla questione di Snowden, limitandosi ad un post sul blog,se  confrontato la campagna a tamburo battente che sta venendo condotta dal Piraten Partei. Volete sapere come la penso? Il fatto che la questione di Prism non venga sviscerata adeguatamente dipende, anche e specialmente, dal fatto che esistono due enti (Pubblicita’ e CDN companies) che di fatto sono il “backend” del sito di Grillo: un’agenzia pubblicitaria (Casaleggio) ed una agenzia di CDN, (o almeno una) che e’ Akamai. Per capire la mia affermazione bisogna capire come funzioni la tecnologia pubblicitaria e come funzioni la tecnologia delle CDN. ( http://it.wikipedia.org/wiki/Content_Delivery_Network )

Non volendo andare nei tecnicismi per un post divulgativo, mi limitero’ ad una spegazione di principio, chi vorra’ approfondire ha internet a sua disposizione. Andiamo per gradi: che cos’e’ una CDN, come per esempio Akamai (il backend del sito di Grillo?).

Una CDN e’ una tecnologia, o un insieme di tecnologie, che ha lo scopo di avvicinare i contenuti all’utente. Immaginate un grosso supermercato che ha una catena di distribuzione. Se si basasse su un immenso magazzino centrale, ogni negozio si troverebbe a richiedere le merci in esaurimento al magazzino centrale. Questo significherebbe un enorme traffico concentrato nel magazzino centrale, cui verrebbe richiesta una performance enormemente costante ed enormemente alta.

Per di piu’, una simile situazione non sarebbe efficiente: parte della spesa del magazzino avrebbe lo scopo di tenere il baccala’ finlandese disponibile ai portoghesi, che non lo mangiano.

Cosi’, supponiamo di avere una serie di magazzini locali, intermedi. I magazzini intermedi si riforniscono da quello centrale, ma adattano il loro buffer alle richieste dei clienti. Cosi’ il magazzino finlandese chiedera’ al magazzino centrale tutto il baccala’ finlandese, mentre quello portoghese chiedera’ qualsiasi cosa piaccia ai portoghesi che sognano il baccala’. A questo punto, il vantaggio e’ che il magazzino centrale puo’ anche fermarsi un giorno, tanto i magazzini periferici hanno scorta, e come se non bastasse, il percorso medio della merce si abbrevia.

Cosi’ fanno i grandi provider come Facebook: anziche’ tenere tutto in un datacenter centrale che sopporta tutto il carico, piazzano “vicine a voi” delle CDN, ovvero dei data center locali che , notando che in Italia vadano molto di moda i contenuti su Berlusconi e in Francia quelli su Hollande, htengono un nodo in francia ed uno in Italia , e ogni contenuto del nodo centrale, se viene richiesto molte volte da una zona sotto la responsabilita’ di un nodo CDN, viene spostato su quel nodo.

Quando cioe’ leggete un contenuto da Facebook, magari noterete un URL che finisce o contiene  “Akamai”. Questo significa che akamai ha notato che quel contenuto e’ molto richiesto nella vostra “zona della rete”, e lo ha spostato dal data center di Facebook al nodo di akamai. Da quel momento, Facebook che viene informata di questo spostamento restituisce agli utenti di quella zona l’istruzione specifica di scaricare dal nodo Akamai.

La cosa che emerge e’ chiara: per fare questo, occorre che akamai sappia dove siete, da dove vi collegate, che contenuti state scaricando. Sapendo che vi collegate dall’italia , diciamo da telecom, facebook vi dara’ un link ad una copia del contenuto stesso, sita nel nodo CDN che e’ dentro la rete di telecom, in italia. Quindi, in definitiva, l’esistenza delle CDN equivale all’esistenza di compagnie di terze parti che riconoscono

  1. La frequenza con cui un dato contenuto viene scaricato.
  2. Il luogo da cui viene scaricato maggiormente il contenuto.
  3. Il luogo da dove il cliente che si connette chiede il contenuto.
Qual’e’ il punto riguardo al controllo? Supponiamo che il nostro grande magazzino affidi ad una seconda azienda i magazzini periferici. Supponete di essere la GdF e di voler sorvegliare e spiare : non ha alcun senso andare nel magazzino centrale a spazzolarsi un database enorme: sapendo cosa cercate, potete spiare l’intera catena spiando l’azienda che offre i magazzini intermedi.

La morale della storia e’ che il governo USA non ha alcun bisogno di accedere al database di Facebook, perche’ puo’ trovare piu’ conveniente, MOLTO piu’ conveniente, spiare usando i CDN, dal momento che implicitamente contengono gia’ le informazioni riguardo alla zona di provenienza dell’utente. Sapendo che un nodo CDN serve una certa area, la comparsa di un contenuto su quel nodo lo rende automaticamente rilevante per quell’area.

Teoricamente, sapendo che FAcebook si serve di Akamai, usare facebook come sorgente dei dati da collezionare per spiare gli utenti e’ inutile: basta controllare Akamai.

Siccome pochissimi utenti sanno chi diavolo sia un CDN, e molti non sanno di averci a che  fare, la notizia che un CDN cooperi con il governo per spiare gli utenti e’ commercialmente neutra: comunque l’utente comune non sa nemmeno con quale CDN ha a che fare; la notizia “il CDN pippo collabora con la NSA” non lo colpisce, perche’ e’ convinto di usare Facebook, non Pippo.

Cosi’, chi va sul sito di Grillo usa un CDN che si chiama Akamai. Imbarazzante. Imbarazzante perche’ Casaleggio&Co non mentono se dicono di non cedere i dati degli utenti a nessuno, e non mentono quando dicono di non fornire ai governi o alla NSA alcun dato sugli utenti. Ma questo non ci dice niente: il governo puo’ semplicemente chiedere ad Akamai di fornire quei dati, ed essendo il CDN un intermediario obbligatorio, di fatto si tratta di un “man in the middle” perfettamente formato.

Se quindi il dibattito sullo spionaggio di Prism ed NSA si spingesse troppo avanti, e arrivasse a coinvolgere tecnico (e non scrittori come Sterling) , immediatamente salterebbe agli occhi il fatto che il sito di Grillo usa un “man in the middle”, (akamai) , che a prescindere da roba tipo https o altra crittazione, si trova (legittimamente) tra voi e Grillo. Possono cianciare di crittazione e https ed SSL quanto vogliono, tanto c’e’ qualcuno in mezzo che raccoglie il dato.

Il dibattito sulla privacy dei grandi siti, quindi, DEVE restare fuori dall’ambito tecnico o comunque rimanere un dibattito di basso profilo, per una ragione: se si iniziasse DAVVERO un dibattito sul ruolo delle CDN come “man in the middle”, ne risulterebbe che dal punto di vista utente esse vanificano la presunta sicurezza di SSL e https e costituiscono un meraviglioso entrypoint per un governo che vi voglia spiare.
Se volete sapere come vi apparirebbe il web senza CDN, o volete capire quanto invasive siano, eccovi una lista delle principali:

  •     Akamai Technologies
  •     Amazon CloudFront
  •     BitGravity (acquired by Tata Communications)
  •     CacheFly
  •     CDNetworks
  •     ChinaCache
  •     CloudFlare
  •     Cotendo (acquired by Akamai)
  •     EdgeCast Networks
  •     Highwinds Network Group
  •     Incapsula
  •     Internap
  •     Level 3 Communications
  •     Limelight Networks
  •     MetaCDN
  •     Mirror Image Internet
  •     NACEVI
  •     OnApp
  •     PageRain
  •     Rackspace Cloud Files
  •     Speedera Networks (acquired by Akamai)
  •     StreamZilla CDN Europe
  •     Windows Azure CDN
provate semplicemente a mettere i corrispondenti domini in blacklist (basta una ricerca su google per conoscerli), e vedrete immediatamente come vi appaiono i grandi siti web: praticamente vuoti.  Cosi’, se immaginate di essere in una nazione ove mentire sia considerato un crimine, un funzionario di governo puo’ tranquillamente dire “noi non abbiamo mai acceduto ai database di FAcebook”, e questo puo’ essere decisamente VERO, a patto che il governo abbia acceduto ai database di akamai, ove si trova un dato addirittura piu’ interessante, che e’ la vostra posizione nel tempo.

Allo stesso modo, se la discussione su Prism ed NSA si alzasse di livello al punto da coinvolgere anche dei tecnici (oltre a scrittori di fantascienza), esisterebbe il pericolo di far capire al pubblico che l’ uso di Akamai in se’ produce un “man in the middle” che nessun SSL puo’ evitare, e che concentra una incredibile quantita’ di dati: Akamai lavora sia per il sito di grillo che per quello di facebook: immaginate cosa ne esca incrociando questi dati.

Il secondo punto imbarazzante e’ la parola “pubblicitario”. Il profano che immagina la pubblicita’ online pensa ancora ai vecchi modelli tipo “pay per click”, o “pay per impression”, ovvero pensa che vengano venduti “spazi” pubblicitari. La verita’ e’ che dall’invenzione della clickstream analisys in poi, (in poi= e le cose piu’ sofisticate che ne seguirono) la selezione di QUALE pubblicita’ mettere nello bacheca DI CHI e’ diventato parte del business.

Per poter competere con una offerta pubblicitaria occorre garantire non solo di avere molto spazio e molti lettori, ma DI AVERLI CLASSIFICATI MOLTO BENE. Se prendiamo un giornale , puo’ dirvi che ha 600.000 lettori, e che se mettete un banner li’ lo vedranno in 600.000. Ma non puo’ garantirvi nient’altro, se non il “tipo” di lettore del suo giornale.

Un oggetto come Facebook puo’ invece offirvi 600.000 impression e dirvi che se siete un’azienda di auto, li manderete SOLO a gente che si e’ interessata all’acquisto di un auto. Il risultato e’ che 40.000 impression su Facebook possono essere piu’ efficaci di 4 MILIONI di visioni su una TV commerciale.
E quindi, costare cento volte di piu’, col risultato che se anche costano SOLO 50 volte di piu’, sono ancora … convenienti per l’inserzionista.

La domanda successiva e’: quante informazioni dobbiamo raccogliere per raggiungere questo livello di efficienza. Senza andare nel dettaglio delle ottimizzazioni, possiamo pensare che la cosa sia piu’ o meno legata a fenomeni di varianza gaussiana, e affermare che la quantita’ di dati scali con un ordine due. Questo significa che possiamo legittimamente sospettare che, a parte fenomeni distorcenti specifici, anche in caso di popolazioni terribilmente “casuali” , per avere 10 volte piu’ efficienza occorre raccogliere 100 volte piu’ dati, per avere due volte piu’ efficienza occorrano 4 volte piu’ dati, etc.(1)

Ora, l’intento di servirvi un contenuto che trovate interessante non ha nulla di male. Se cercate di cambiare auto, sapere tutte le ultime novita’ non solo e’ quello che faticosamente cercate di fare, ma e’ quello che vi CONVIENE fare. Una pubblicita’ piu’ mirata di per se’ diventa informazione: conoscere OGNI possibile offerta di mercato vi permette di scegliere meglio (a meno che non preferiate scegliere l’auto lanciando una monetina!).

Se volendo comprare un’auto AUTOMATICAMENTE mi arrivassero a casa TUTTE le offerte di TUTTE le aziende automobilistiche, con tutti i listini, per me sarebbe una bella cosa, perche’ mi eviterebbe di girare per concessionari in cerca della stessa informazione.
Il problema inizia quando iniziamo a chiederci che genere di informazioni stia raccogliendo NSA. Perche’ quando ce lo chiediamo , scopriamo che somigliano MALEDETTAMENTE alle informazioni che i pubblicitari vanno raccogliendo. Chi siete, cosa vi piace, dove amate essere, eccetera.

Cosi’, tornando al nostro grande magazzino, se il magazzino esternalizzasse questa attivita’ ad una agenzia pubblicitaria, per spiare il magazzino (o meglio i suoi clienti) lo stato non avrebbe alcuna necessita’ di entrare direttamente nei database del magazzino stesso: potrebbe semplicemente cercare nel database dell’agenzia pubblicitaria. Ancora una volta, il grande magazzino potrebbe dire che “non cede allo stato i dati sui clienti”, perche’ a farlo e’ l’agenzia pubblicitaria.

Cosi’, se esiste un’agenzia pubblicitaria intermedia, che vende “spazi facebook” o “consulenza sui nuovi media”, e’ assai probabile che il suo sistema di CRM (o sistemi analoghi) contenga un database INTERESSANTISSIMO per il governo. Non c’e’ alcun bisogno di fare tapping e poi consolidare ENORMI quantita’ di dati, quando esistono migliaia di aziende che si occupano di fare il lavoro per lo stato. basta chiedere il dato a loro.

Che cosa intendo dire, in sostanza?

Intendo dire che la somma di CDN e pubblicita’ e’ probabilmente la coppia di database PIU’ INTERESSANTI DEL MONDO per un governo che voglia spiarvi. Facebook e Gmail sono interessanti, si, ma se cerchiamo metadati sui contenuti INDICIZZATI IN MANIERA EFFICIENTE non abbiamo bisogno di reinventare la ruota: i CDN stanno GIA’ indicizzando chi, cosa e dove, mentre i pubblicitari stanno indicizzando … chi, cosa e come.

Non c’e’ alcun bisogno di andare alla sorgente a prelevare un dato grezzo, quando il dato GIA’ LAVORATO si trova altrove: se fossi NSA non andrei certo a prendere il database di facebook: preferirei quello dei suoi CDN. Allo stesso modo, non andrei certo a spulciare ogni record dal grande database grezzo di Google, quando i suoi CDN (e cache.google.com) contengono gli stessi dati, uniti all’identita’ dell’utente e dalla sua posizione, senza bisogno di rifare tutto il lavoro.

Allora, se abbiamo stabilito che CDN e pubblicita’ in rete sono le sorgenti di “Prism” e spionaggio di NSA piu’ sospette, se poi guardiamo il sito di Grillo notiamo che:

  1. Usa ALMENO una CDN, cioe’  Akamai , piu’ la CDN di twitter.
  2. Ha dietro alle spalle un’azienda di pubblicitari. esperti in clickstream &co.

e’ chiaro che di fronte ad una simile accoppiata, diventerebbe davvero imbarazzante un dibattito pubblico fatto da tecnici competenti che possano fare domande.

Meglio farsi intervistare da un autore di fantascienza, ignorare (o quasi) l’affare Snowden,  e non spiegare l’uso imbarazzante di CDN da parte del sito, che potrebbe anche portare molti esperti a chiedere se siano davvero cosi’ indispensabili.

Ed ecco qui il vostro Akamai:
cosi’, ecco perche’ M5S non entrera’ MAI in una discussione TECNICAMENTE SERIA sul discorso prism: se la discussione diventasse tecnicamente seria, con tecnici che sanno cosa sia una CDN e quali siano le tecniche dei pubblicitari, il discorso diverrebbe assai imbarazzante.

Conviene molto ad M5S non menzionare questo genere di cose, e dire una verita’ “neutra”, come “Casaleggio non fornisce dati a nessun governo”.

Verissimo, ma cosa sappiamo di akamai, twitter, facebook?(2)

E che cosa possiamo dire di un’azienda pubblicitaria su internet che, per definizione, vive vendendo servizi basati sui dati clickstream reaccolti?

Quindi no: il caso snowden e’ un caso piuttosto imbarazzante per M5S, per il quale NON mi aspetto una trattazione rigorosa o un dibattito che possa svegliare i tecnici. Quelli veri, non gli inventori del Cyberpunk.

Perche’ su un argomento simile, il sito di Grillo ha una infrastruttura perlomeno imbarazzante.(2)

Uriel
(1) Il concetto di dato e della sua dimensionalita’ andrebbe investigato, finendo con una trattazione sofisticata. Il punto e’ che occorrono MOLTI dati su di voi.
(2) Si, essendo su Blogger anche questo blog usa CDN. Se andate infatti sul link “Datenschutz”, il corrispondente tedesco della dichiarazione sulla privacy dei dati italiana , trovate le CDN menzionate. Quella pagina e’ obbligatoria in Germania, ed essendo io qui, ho obbligo di scriverla e di scriverci la verita’. Imbarazzante, suppongo, se vi proponete come “Guru” delle liberta’ digitali, come fa Grillo.