Il vecchio lupo di mare: big data

Visualizzazione post con etichetta big data. Mostra tutti i post

sabato 20 ottobre 2018

Tutta colpa dell'Algoritmo

"Facebook cambia algoritmo", "Algoritmo impazzito", "Twitter sconfessa l'algoritmo": sono solo alcuni (estratti di) titoli di notizie recenti che hanno a che fare il mostro dei nostri tempi: l'algoritmo. Pochi giorni fa, ad un convegno in tema di privacy, una stimatissima professoressa di Diritto ha confessato che deve farsi aiutare dai tecnici a capire cosa vuol dire che "si è perso il controllo dell'algoritmo". Ne ha ben ragione: non ne ho idea neanch'io, di cosa vuol dire. Ma alla fine, cos'è 'sto algoritmo?

Dal Dizionario della lingua Italiana di De Mauro:

matematica: insieme di regole per la risoluzione di un calcolo numerico; gener., procedimento matematico
informatica: insieme di regole che forniscono una sequenza di operazioni atte a risolvere un particolare problema

Le parole su cui bisogna soffermarsi sono: regole, procedimento, risoluzione. Lo scopo di un algoritmo è trovare la soluzione di un problema; è composto da un procedimento e delle regole. Tutto qui; ma per capire meglio, guardiamolo un algoritmo (ho scelto quello che era mitico all'università, il bubble sort, che è il più efficiente tra i procedimenti di ordinamento):

Immagine tratta da: http://ivandelvecchio.altervista.org/informatizziamoci/ordinamento-bubble-sort-array/

In pratica, presa una sequenza di elementi, si procede a scambiare ripetutamente quelli che non rispettano l'ordinamento, finché non si arriva alla sequenza ordinata. Facile no?

In realtà, quello che mi preme sottolineare è che un algoritmo non è altro che un procedimento logico per risolvere un problema. Niente di più. Un frutto dell'ingegno umano. Che poi deve diventare qualcosa di realmente utilizzabile, tipicamente un programma software: il che vuole dire che qualcuno, che non è quasi mai chi ha "inventato" l'algoritmo, lo traduce in un linguaggio di programmazione, diventando, appunto, il programma (o parte di esso). In realtà, vale anche il viceversa: ogni programma non è altro che l'implementazione di uno o più algoritmi, che magari esistono solo nella testa del programmatore.

Ovviamente niente vieta che un algoritmo possa essere sbagliato (cioè non risolve correttamente il problema), o che lo sia il corrispondente programma (cioè il software non fa quello che prevede l'algoritmo); ma se si effettuano i dovuti controlli, la questione è marginale.

Che c'azzecca tutto ciò con gli algoritmi che impazziscono? Niente, appunto. Un algoritmo (o il computer attraverso il programma) fa ciò che gli viene detto. Il risultato è sbagliato se l'algoritmo (o il corrispondente programma) è sbagliato. Punto. A parte questo, non esistono algoritmi buoni o cattivi: buono o cattivo è lo scopo, o il risultato, dell'algoritmo.

Fin qui la teoria; la pratica è un po' più complicata. Perché gli algoritmi che, secondo alcuni, impazziscono, sono enormemente più complessi dell'esempio che ho proposto; ed è piuttosto comune (mi rifiuto comunque di considerarlo normale) che i suoi errori siano evidenziati in situazioni estreme, tipicamente dati enormi o molto diversi da quelli attesi da chi ha sviluppato l'algoritmo.

Gli algoritmi sono diventati famosi, uscendo dalle buie stanze dei nerd, con l'informatizzazione di massa, e da quando hanno iniziato ad avere effetti sulla vita dell'uomo comune: oggi vanno per la maggiore quelli che, a seconda dello scopo (o meglio, della tipologia di scopo) prendono il nome di Big Data, Intelligenza Artificiale, Machine Learning, e compagnia bella. Tutta roba bellissima per chi la studia, un po' meno per chi la subisce. Intanto perché l'abuso di questi algoritmi ci limita la libertà di scelta (vedi i risultati dei motori di ricerca: quelli che dovrebbero essere i più pertinenti sono scelti in base a criteri che non possiamo controllare); e poi perché molte volte nemmeno è chiaro come e perché si usano queste tecniche avanzatissime.

Facciamo un altro esempio, e lo prendiamo dal mondo dello sport, in particolare dalla pallavolo (chi mi conosce non ne resterà stupito). Esiste da anni la "moviola" in campo, per diverse situazioni; per stabilire la palla dentro o fuori, esistono in realtà due tecniche, una "reale" (telecamere ad alta velocità e risoluzione poste in corrispondenza alle linee) ed una "virtuale" (ricostruzione tridimensionale della traiettoria del pallone, lo stesso metodo usato nel tennis, cosiddetto occhio di falco).

Nessun dubbio che l'algoritmo alla base di "occhio di falco" sia corretto; tuttavia, basandosi sulla ricostruzione della traiettoria nello spazio a partire dalle immagini riprese da apposite telecamere che coprono tutto il campo (una tecnica, chiamata motion tracking, usata da più di 20 anni nel cinema, per esempio così fu generato Gollum nella trilogia del Signore degli anelli), richiede un'attentissima calibrazione e posizionamento per garantire precisione. Ma se hai una tecnica più semplice, e che non ti lascia nessun tipo di dubbio, perché usare un artificio, per quanto bellissimo e precisissimo? Eppure la prima viene utilizzata nelle competizioni italiane, e la seconda in quelle internazionali, ormai da diversi anni!

In conclusione, fermo restando che non sono gli algoritmi ad impazzire (è sempre e solo l'intelligenza umana a venire meno), è la dipendenza da essi il vero male della nostra società iperconnessa. Dove non portino effettivo beneficio per la comunità, è nostro dovere difenderci rifiutandoli, invece di lamentarci o, peggio, adeguandoci passivamente.

N.B. Il post è nato da un'idea di qualche giorno fa, ma non è un caso che sia stato scritto il giorno della finale del campionato mondiale femminile di pallavolo... serviva anche a smaltire la delusione della sconfitta (che non ha avuto nulla a che fare con decisioni arbitrali).

domenica 20 maggio 2018

In principio fu il Social Engineering

Profilazione, Big Data, pubblicità personalizzate, tutti temi molto in voga da qualche anno a questa parte, hanno un antenato comune: L'Ingegneria Sociale, dall'inglese Social Engineering. Per capire il significato di questa espressione bisogna tenere a mente che l'inglese "Engineering" ha un'accezione molto più estesa del corrispettivo italiano "Ingegneria": mentre quest'ultimo si riferisce quasi esclusivamente alla ben nota facoltà universitaria, cioè l'insieme delle capacità di trasformare le conoscenze in ambito scientifico e tecnologico in prodotti e servizi disponibili alla collettività, il termine inglese comprende anche le varie branche tecniche non necessariamente di livello universitario. Nel caso specifico, si intende la capacità di studiare il comportamento di qualcosa per intuirne il funzionamento interno; solo che il "Social" che viene prima ci precisa che il qualcosa sono le persone.

Di per sé, è una tecnica non recente, ma ovviamente l'avvento dell'informatica di massa l'ha resa particolarmente efficiente per via del numero elevato di elementi che possono esserne bersaglio, e la possibilità di effettuarla da lontano e in completo anonimato. In questa fase, la tecnica si poteva effettivamente considerare un attacco informatico, nel senso che c'era qualcuno che tramite azioni mirate ed ingannevoli cercava di indurre il malcapitato di turno a dare informazioni che altrimenti avrebbe tenute riservate, oppure a fare azioni a profitto dell'attaccante. Da quando poi c'è stato l'avvento dei social network, il fenomeno è esploso, tanto da specializzarsi in varie branche con scopi diversi e da diventare la fonte delle maggiori ricchezze moderne; ma in questo caso l'attacco mirato da parte di un malfattore è stato sostituito da una generale induzione alla condivisione selvaggia dei fatti propri attraverso prodotti e servizi apparentemente innocui ed utili (ogni riferimento a fatti reali è puramente... voluto!).

Cerchiamo di capirci meglio, andando nel concreto di qualche situazione.

Gli scopi più comuni sono:

Furto d'identità
Furto di password per accessi fraudolenti
Ricatto
Influenzare i comportamenti futuri

L'esempio più comune è il phishing, cioè la mail che induce ad inserire le proprie credenziali di accesso ad un servizio in un falso sito, per poi utilizzarle nel sito vero (se si parla della vostra banca, potete immaginare da soli l'effetto); sempre in tema di mail, esse sono il veicolo più utilizzato per la diffusione dei ransomware, cioè quei virus che cifrano i dati e richiedono un riscatto per la decifratura, attraverso allegati il cui presunto contenuto viene in qualche modo a scatenare il nostro interesse. Il più pericoloso attacco di questo tipo, soprattutto se perpetrato verso minori, è carpire la fiducia per poi abusarne (il termine non è scelto a caso: i casi di cronaca sono terrificanti).

Il vero scopo del post però è quelli di mettere in guardia rispetto alle tecniche passive, cioè a quelle che fanno uso dei dati che noi stessi rendiamo pubblici attraverso la nostra normale attività online.

L'esempio più lampante sono le innumerevoli foto fronte/retro postate sui social network delle carte di credito, così da rendere visibili tutti i dati che vi sono riportati: avete mai pensato che sono esattamente i dati che vengono richiesti quando fate un pagamento online? Quindi: foto postata, acquisto fraudolento in 5, 4, 3, 2, 1... (non ci credete che qualcuno sia così stupido? c'è un account twitter che retweeta questi geni...).

Simile è il caso del nostro codice fiscale, che racconta di noi tutti i dati anagrafici (e il furto d'identità è servito; per questo non vi lamentate quando vi chiedono la fotocopia della carta d'identità, e magari evitate di postarne una foto!).
Infine, i fatti recenti dimostrano che anche solo i like/mi piace/retweet e compagnia cantante forniscono indicazioni estremamente precise sulla nostra personalità, che poi vengono utilizzate per indirizzare i nostri comportamenti futuri, a partire dagli acquisti per finire al voto elettorale, attraverso informazioni personalizzate (e intendo: espressamente indirizzate ad una determinata persona).

Altra possibilità è quella di incrociare informazioni da fonti differenti: a me è capitato in più di un caso di intuire informazioni di persone che seguo su Twitter, ma che non conosco assolutamente di persona, basandomi solo su ciò è all'interno dei loro post (casi reali: ho trovato il cognome di un utente che aveva fornito solo il nome; per un altro ho capito dove vive; non si contano i casi di intuizione delle tendenze politiche). Ma il caso più comune e secondo me pericoloso è quello di fornire involontariamente indicazioni di quando si è lontani da casa (tipicamente, quando si è in vacanza, ma non solo), postando selfie appena scattati da cui è evidente risalire al luogo in cui ci si trova, che chiaramente non è quello in cui si vive; tenendo conto che ormai con l'intelligenza artificiale è possibile riconoscere posti anche molto poco comuni e da pochi, apparentemente insignificanti, dettagli.

L'errore più grave che si può commettere è quello di pensare che tutto ciò non riguardi noi: i malintenzionati non vanno per bersagli precisi, ma cercano nel mucchio di cui noi tutti facciamo parte. Il mio consiglio, prima di condividere anche la più più innocente delle informazioni, è chiedersi: a che scopo può essere utilizzata a mio danno? Ricordandoci poi che internet non dimentica.

P.S. Mai, MAI, MAI utilizzare informazioni personali per scegliere le vostre password!!!

lunedì 9 aprile 2018

Facebook ieri, oggi e domani

Da ormai diversi giorni Facebook è sulla bocca di tutti, dopo i presunti scandali svelati dai media. Molti ne hanno parlato e commentato. Personalmente, per scelta legata più al comune utilizzo che ne viene fatto, non ho mai avuto un account Facebook (né Whatsapp o Instagram, che per chi non lo sapesse sono società che appartengono a Facebook), per cui quello che so è esperienza indiretta. Ciò nonostante, propongo una visione, spero originale ed interessante, di quello che sta succedendo.

Facebook ieri

Dalla pagina di Wikipedia Italia relativa alla voce Facebook:

Facebook è un social network lanciato il 4 febbraio 2004[...]. Il sito, fondato ad Harvard negli Stati Uniti dal proprietario Mark Zuckerberg e diversi colleghi [...] era originariamente stato progettato esclusivamente per gli studenti dell'Università di Harvard, ma fu presto aperto anche agli studenti di altre scuole della zona di Boston, della Ivy League e della Stanford University.

Successivamente fu aperto anche agli studenti delle scuole superiori e poi a chiunque dichiarasse di avere più di 13 anni di età. [...] Ha cambiato profondamente molti aspetti legati alla socializzazione e all'interazione tra individui, sia sul piano privato che quello economico e commerciale.

Tutto questo per dire che presumibilmente Facebook è nato con l'innocente intenzione di essere un punto di contatto e socializzazione per una comunità ristretta, ma evidentemente ha incontrato un bisogno inespresso della società del nostro tempo, amplificato dal quasi contemporaneo boom del mobile, ed il suo successo è andato ben oltre le aspettative di chi l'ha creato.
Il successo ha inevitabilmente comportato crescenti necessità economiche (non dimentichiamo che mantenere un servizio internet, anche banale, ha costi non indifferenti). In "soccorso", sicuramente prima è venuta la pubblicità, secondo il business model in voga in quei primi anni della diffusione di internet come fenomeno di massa; poi la pubblicità mirata, utilizzando la profilazione degli utilizzatori; infine, ed è il problema evidenziato degli scandali odierni, ma già presente da anni, la raccolta e/o vendita di dati personali a fini di influenza sociale e politica. E soprattutto in quest'ultimo caso, è facile immaginare che anche le migliori intenzioni dei primi tempi possano aver ceduto il passo alle sirene dei soldi facili, soprattutto se nei dirigenti non ci fosse stata una adeguata sensibilità ai temi della privacy.

La riflessione sul passato, però, non può prescindere da un dato inequivocabile: nessuno dei dati personali utilizzati, per qualsivoglia fine, è stato estorto con la forza o con l'inganno: tutto è stato volontariamente fornito dagli utenti del servizio, semplicemente utilizzandolo. Inoltre, l'utilizzo dei dati per scopi di marketing (ma non solo) era scritto nelle privacy policy (basta controllare: alcuni estratti delle policy a gennaio 2017 sono riportate in un mio vecchio post). Quindi, per gli addetti ai lavori, non c'è nessuno scandalo: era tutto noto, ma chi ha provato a mettere in guardia la massa è stato semplicemente ignorato.

Facebook oggi

Lo scandalo, come tutti (speriamo!) ormai sanno, è nato dal caso Cambridge Analytica (ho segnalato diversi articoli e commenti attraverso l'hashtag #ilvecchiolupodimare), in cui, è bene ricordare, i profili degli utenti sarebbero stati usati per influenzare il loro voto nelle elezioni presidenziali americane e nel referendum britannico sull'abbandono dell'UE (ma la società, in parte, nega o ridimensiona le cose); poi mano mano, con il tempismo tipico del giornalismo che si sveglia solo quando sente "l'odore del sangue", sono arrivati altri casi, fino al più recente che ha svelato finalmente il segreto dell'acqua calda: tutti i dati di tutti gli utenti sono stati usati per scopi poco chiari e trasparenti. In realtà era già qualche settimana che rimbalzavano sui media specializzati dichiarazioni di osservatori, o anche di ex dirigenti di Facebook stessa, riguardante proprio le politiche "allegre" di utilizzo dei dati personali degli utenti (e, non dimentichiamolo, anche dei loro amici, inclusi quelli non iscritti).

Il buon Mark si è assunto le sue responsabilità (o quanto meno ha finto di farlo: ci sono in giro presunte dichiarazioni di Zuckerberg stesso, più o meno rubate, che lasciano pochi dubbi sull'intenzionalità delle azioni), ed ha promesso una stretta sull'utilizzo indiscriminato dei dati (tipico esempio del chiudere il recinto dopo che i buoi sono scappati). Sempre per rimanere nelle reazioni a scoppio ritardato, c'è chi teatralmente ha chiuso i suoi account, e chi ha iniziato a suggerire di farlo. I "tecnici", come me, hanno segnalato le istruzioni di varie operazioni utili, come scaricare tutti i propri dati o come (provare a) cancellarli. Insomma, il caso ha generato, forse per la prima volta, una certa reazione dei commentatori.

In realtà, a me sembra che in tutta questa confusione, emerge assordante il silenzio degli utenti di Facebook, almeno i non VIP.

Facebook domani

Ed ora, cosa succederà? Certo, considerando che anni fa avevo già previsto l'imminente fine di Facebook, che invece è diventato il rappresentante per antonomasia della categoria dei social network, non sono certo il più indicato a fare previsioni... ma almeno qualche altra riflessione sì.
Dal punto di vista finanziario, Facebook subirà sicuramente dei contraccolpi (oltre all'immediato calo in borsa): per esempio, alcune società hanno già ritirato le loro campagne pubblicitarie.

Inoltre, a brevissimo (il mese prossimo), dovrà adeguarsi al nuovo Regolamento europeo sulla privacy (non è chiaro se ciò sarà esteso anche agli utenti non europei), che impone totale trasparenza sugli utilizzi dei dati, e relativi consensi espliciti. Se tale regolamento fosse applicabile ai fatti in questione, assisteremmo ad un procedimento che probabilmente porterebbe alla sanzione massima possibile, cioè diversi milioni di Euro ed il divieto di proseguire con i trattamenti illeciti.

Il grosso del problema è però cosa faranno gli utenti. In proposito, non dimentichiamo che negli ultimi mesi si stava comunque verificando un curioso fenomeno, ossia la disaffezione dei giovanissimi, e la loro migrazione verso altri social, come una sorta di fuga dai propri genitori, affluiti anche loro in massa ad iscriversi a Facebook.
Chiudere l'account è sostanzialmente inutile, se non come gesto di protesta; evitare di aprirne uno nuovo, può avere senso. Ci potrebbe essere, almeno da parte degli utenti più attenti e consapevoli, una diminuzione dell'utilizzo del servizio, in particolare riguardo alle applicazioni che spesso rappresentano il mezzo con cui vengono condotte le profilazioni più invasive (tramite quiz o sondaggi, appositamente studiati). Ma non credo che ci sarà una vera fuga, anche perché per molti Facebook rappresenta in massima parte la memoria della propria vita (errore che non esito a definire estremamente stupido). Ancora meno impattate sembrano essere Whatsapp ed Instagram, che inspiegabilmente non sono state toccate dallo scandalo.

In definitiva, mi aspetto che Facebook ne esca ridimensionato sotto diversi punti di vista, ma temo che sopravviva senza eccessivi patemi. Anche perché la memoria umana è corta... in attesa del prossimo scandalo, che, con tutte le differenze del caso, ha già un protagonista designato: Alphabet. Questo nome non vi dice niente? Non vi rovinerò la sorpresa! 😉

AGGIORNAMENTO Luglio 2019
Cosa è successo da un anno a questa parte? Che sono iniziate ad arrivare le sanzioni. Pochi giorni fa, l'Autorità Garante per la Protezione dei Dati Personali ha elevato una sanzione da 1 milione di Euro; infatti, l'illecito era stato scoperto in epoca pre-GDPR e quindi non si applicavano le mega-sanzioni possibili con quest'ultimo. Subito dopo, la Commissione Federale per il Commercio degli USA, che non ha leggi sulla privacy a livello del GDPR (che anzi è visto come il fumo negli occhi), ha comminato una multa da 5 miliardi di dollari! Circa 5000 volte quella italiana!!! Bene, benissimo, direte voi: peccato che subito dopo la notizia il titolo Facebook in borsa sia salito: perché tutti si aspettavano ben di peggio! In definitiva, la mega-multa rappresenta quello che Facebook guadagna in un mese...
State quindi sereni: Facebook (e Whatsapp, e Instagram) per ora non chiudono. Anzi rilanciano: vogliono entrare nel mercato dei pagamenti digitali (Libra). E la voce delle povere Cassandre come me che mettono in guardia dai pericoli che ne derivano, è sovrastata dagli applausi dei soliti entusiasti...

giovedì 8 febbraio 2018

Cosa c'entrano i Big Data con la "monnezza"?

Oggi mi è capitato di sentire una storia quanto mai interessante su come vanno le cose in questi tempi di innovazione selvaggia. Per ovvie ragioni di riservatezza, ometterò tutti i dettagli possibili, poiché in pratica si è trattata di un'introduzione ad un prodotto non ancora in commercio.

Una piccola premessa: non c'è modo di controllare le mie affermazioni, purtroppo posso solo chiedere di avere fiducia; io stesso, al di là di alcune foto viste su uno smartphone, non ho prove che quello che vi sto per raccontare sia completamente vero. Però è plausibile, ed è quello che mi interessa.

Il prodotto in questione tratta i rifiuti casalinghi in ottica di economia circolare: in pratica, ottenendo dai rifiuti materiale in qualche modo riutilizzabile, quindi un lodevole scopo, con finalità anche ecologiche. Il problema è che alla vendita questo prodotto costerebbe nmila euro, cosa che lo renderebbe un prodotto di nicchia, per veri ambientalisti che non sanno come spendere altrimenti i soldi. La soluzione? Aggiungendo opportuni "sensori", l'apparecchio fa una sorta di analisi dei rifiuti e tramite un collegamento internet, li invia a chissà chi per entrare a far parte di quel calderone di informazioni che oggi vanno col nome di Big Data. Attraverso la vendita di questi dati, il costo al dettaglio dovrebbe scendere parecchio, molto, ma molto di più del 50%, portandolo al livello di altri elettrodomestici molto comuni nelle nostre case (e ben al di sotto del costo di certi telefonini con la mela...). Geniale, no? Talmente geniale, che il primo posto dove stanno cercando di piazzare questi apparecchi, e Dio solo sa se quanto ce n'è bisogno, è Roma!

Per chi non lo sapesse: col nome Big Data si intendono quei sistemi che da gigantesche quantità di informazioni non strutturate (e, speriamo, anonime) estrapolano poche ma importanti informazioni utilizzabili agli scopi più disparati (e legali, s'intende).

Perché la storia è interessante? Beh, perché ci insegna che i nostri dati, inclusi quelli della nostra spazzatura, sono preziosissimi per qualcuno, tanto da poter essere venduti. Sono preziosissimi perché raccontano i nostri consumi; come essi variano nel tempo; e magari anche la qualità dei prodotti che consumiamo. Informazioni fondamentali per chi programma investimenti nello sviluppo di un nuovo prodotto. E la vendita di tali dati è talmente remunerativa da giustificare uno "sconto" (diciamo intorno al 80%) che in ogni altro caso darebbe naturalmente adito a sospetti di truffa. Dimenticavo: il costo del collegamento internet non è a carico del consumatore, ma del produttore...

Questa storia, tra le altre cose, mi ha un po' aperto gli occhi su quello che sta diventando un mantra del mercato digitale, ossia l'Internet delle cose (ne avevo parlato, in modo alquanto critico, in un vecchio post): cioè collegare ad internet qualsiasi oggetto. Ed anche il costo relativamente basso di questi oggetti potrebbe spiegarsi, oltre che con l'assoluta mancanza di qualsiasi misura di sicurezza informatica, proprio con il principio di raccogliere dati e poi rivenderli profumatamente.

In conclusione, non posso che tornare al tormentone che ripropongo sempre ultimamente: pur di risparmiare nell'acquisto di un prodotto/servizio, siete davvero disposti a rinunciare a proteggere i vostri dati personali (anche se in fondo, si tratta solo di monnezza)?

Pagine