Dove l’occhio umano non arriva: il machine learning
Una delle funzioni essenziali che svolge il nostro cervello, evolutasi appunto per l’enorme vantaggio che conferisce alla specie umana, è l’identificazione pressoché immediata degli oggetti che ci si presentano davanti. La ragione è chiara: in questo modo possiamo conoscere istintivamente se un dato oggetto rappresenta una minaccia per noi o no. Non ci interroghiamo spontaneamente su come ciò sia possibile, poiché noi siamo la macchina stessa che compie il lavoro. Nella scienza, però, le grandi rivelazioni spesso provengono da un cambio di punto di vista. Poniamoci dunque la domanda: come fa il cervello a identificare la miriade di oggetti con cui ci interfacciamo quotidianamente?
La questione si fa più articolata nel momento in cui si considera che i medesimi oggetti che vediamo grazie ai nostri occhi non sono altro che insiemi di segnali elettrochimici trasmessi dalla retina attraverso il nervo ottico al cervello. È quindi possibile assimilare una qualsiasi immagine impressa sulla retina a una collezione di dati numerici, proprio come i pixel di un’immagine digitale. Ora, la neuroscienza non è ancora in grado di fornire risposte sostanziali alla domanda precedente. Rimane tuttora molto da scoprire, accertare e comprovare. Tuttavia, la nostra comprensione dei complessi meccanismi che governano l’intricata rete di neuroni del cervello cresce ogni giorno, parallelamente all’avanzamento delle tecniche finalizzate alla sua esplorazione.
E se vi dicessi che, nonostante sappiamo ancora poco di come il cervello svolga funzioni «di ordine superiore» come l’identificazione di oggetti, abbiamo già inventato macchine che possono, comportandosi in modo analogo, eseguire le medesime attività? Benvenuti nel mondo affascinante dell’intelligenza artificiale (AI), il campo di studio più caldo del momento, al centro della cosiddetta quarta rivoluzione industriale. L’obiettivo dell’AI è «svolgere compiti comunemente associati a esseri intelligenti», attraverso «processi intellettuali caratteristici degli umani, come l’abilità di ragionare, trovare significato, generalizzare o imparare dall’esperienza passata».¹
Una tecnologia di AI in particolare più si presta al compito che ci siamo posti: il machine learning. I programmi di machine learning danno ai computer l’abilità di imparare da soli, senza essere esplicitamente programmati, il che li rende unici. Da una parte, un programma di computer tradizionale prende un input e delle istruzioni, chiamate collettivamente «algoritmo», applica quest’ultimo all’input e produce un output. D’altra parte, un programma di machine learning prende un input e un output e trova, attraverso processi che variano a seconda del genere di problema, l’algoritmo che descrive in modo migliore la relazione che li lega. Questo è incredibile: significa che una macchina è in grado, in autonomia, di scoprire relazioni profonde tra insiemi di dati, che altrimenti sfuggirebbero anche all’analisi umana più scrupolosa.
La chiave per capire il machine learning è il concetto di ottimizzazione. Supponiamo di avere tre punti non allineati in un piano, con gli assi che descrivono due grandezze arbitrarie. Sappiamo che queste due sono legate da una relazione di tipo lineare, ma vogliamo conoscere la relazione specifica. Costruiamo quindi un programma che trovi la retta che ha in media la minor distanza possibile dai tre punti. Per farlo, il programma dovrà prendere una linea a caso; calcolare la cosiddetta funzione di perdita, che descrive lo scarto medio della linea dai tre punti; modificare la retta; ricalcolare la funzione, confrontando il nuovo valore col precedente; e così via, cercando di minimizzare la funzione di perdita. Dato che i computer eseguono bilioni di calcoli al secondo, la risposta in questo caso arriva subito. La retta ottimale avrà un certo valore di inclinazione, detta «peso», e una certa intercetta con l’asse verticale, detta «bias».
Abbiamo appena risolto un problema di regressione lineare, la più semplice delle categorie di problemi, poiché di natura puramente statistica. Se la relazione tra le due grandezze non è lineare, la regressione diventa polinomiale. In linea generale, tutti i problemi di regressione hanno come obiettivo la previsione di un output per un qualsiasi input e consistono nella ricerca di una funzione che sia la più accurata e generalizzabile possibile. Un esempio di problema di regressione più complesso è prevedere la temperatura dell’indomani. In relazione a questo vi sono due fatti da sottolineare. La prima è che tutti gli algoritmi di machine learning prima di poter fare previsioni devono “allenarsi” su un apposito insieme di dati, detto «training set». La quantità di dati deve inoltre essere grande per ottenere risultati significativi. La seconda è che possono esserci ben più di una variabile indipendente in un problema, come nel caso delle previsioni meteorologiche.
Torniamo però al compito originario: l’identificazione di oggetti. Questo si tratta di un problema di classificazione, per il quale gli strumenti della statistica non sono più sufficienti. Entrano quindi in gioco i veri protagonisti dell’AI, le famosissime reti neurali, che tentano di imitare direttamente il funzionamento del cervello, in base alle conoscenze attuali. Le reti neurali sono collezioni di nodi, detti «neuroni», parzialmente o pienamente connessi l’uno con l’altro e organizzati in strati. Vi è uno strato di input, un numero arbitrario di «strati nascosti» e uno strato di output, composto da tanti nodi quante sono le categorie in cui l’algoritmo deve classificare le immagini.
Per semplicità poniamo che l’algoritmo riceva come input un’immagine che contiene un solo oggetto, per esempio un cane. L’immagine sarà scomposta nei suoi pixel di larghezza e altezza e, se è a colori, anche nei tre canali RGB. Questi numeri vengono forniti ai neuroni dello strato di input e moltiplicati — semplificando — per certi pesi, che rappresentano la forza delle connessioni che li legano ai neuroni dello strato successivo, ossia il primo strato nascosto. I pesi per ogni strato sono determinati autonomamente dall’algoritmo nella fase di allenamento, attraverso numerose iterazioni, dette «epoche», e grazie a un processo di retropropagazione dell’errore, che minimizza la funzione di perdita mediante tecniche di calcolo infinitesimale. Ai numeri risultanti dalla moltiplicazione viene aggiunto il termine di bias e i numeri finali sono inseriti nella cosiddetta funzione di attivazione. Se il numero è tale da “attivare” la funzione, passa al prossimo strato; in caso contrario, non passa.
Si arriva così all’ultimo strato, quello di output, con una serie di numeri. È qui che l’algoritmo “decide” se collocare l’immagine nella categoria «cane» o «gatto». I numeri vengono trasformati in probabilità assegnate a ogni categoria, ossia due numeri da 0 a 1. La categoria con la maggior probabilità sarà la previsione scelta dall’algoritmo. Per verificare l’accuratezza dell’algoritmo, lo si applica a un insieme di dati diverso da quelli di allenamento, chiamato «test set». Idealmente, l’accuratezza del test set dovrebbe essere il più simile possibile a quella del training set. Se è notevolmente minore di essa, l’algoritmo si è adattato troppo specificamente ai dati di allenamento — un fenomeno noto come «overfitting» — risultando quindi poco generalizzabile.
Concludo con una considerazione importante. Noi non sappiamo veramente cosa succede all’interno di una rete neurale. O meglio, noi conosciamo i processi matematici che governano le singole relazioni tra neuroni, ma semplicemente non comprendiamo come il lavoro congiunto svolto da milioni di parametri possa dar origine a una certa previsione: le reti neurali sono, per ora, scatole nere. Eppure funzionano, e anche molto bene. Oggi le reti neurali sono impiegate, oltre alle previsioni meteorologiche e al riconoscimento di oggetti, nel data mining, nell’elaborazione del linguaggio naturale, perfino nella generazione di opere d’arte.
Il 30 agosto scorso l’artista Jason M. Allen ha vinto il primo premio nella categoria d’arte digitale a una competizione in Colorado con un’opera, intitolata Théâtre D’opéra Spatial, generata interamente da una rete neurale avanzata.² La decisione della giuria scatenò l’ira sia di artisti che di membri del pubblico, restii a considerare un prodotto realizzato in maniera così artificiale come “arte vera”.
Il fatto mette in mostra che la società odierna deve ancora fare i conti con le implicazioni più ampie dell’intelligenza artificiale, una realtà che sta progredendo forse troppo rapidamente per i nostri ritmi. Se vogliamo evitare di trovarci impreparati di fronte a dilemmi di spessore ben maggiore, dobbiamo come collettività intavolare una discussione sui suoi rischi e benefici.
S. Gallina
Note
¹ Copeland, 2022.
² Gault, 2022.
Bibliografia
B. J. Copeland, Artificial intelligence, su Encyclopedia Britannica, 24 agosto 2022, www.britannica.com/technology/artificial-intelligence.
M. Gault, An AI-Generated Artwork Won First Place at a State Fair Fine Arts Competition, and Artists Are Pissed, su Vice, 31 agosto 2022, www.vice.com/en/article/bvmvqm/an-ai-generated-artwork-won-first-place-at-a-state-fair-fine-arts-competition-and-artists-are-pissed.
K. Parikh, Machine Learning, New York University, New York, agosto 2022.
Comments