I vincitori del Premio Turing 2025 mettono in guardia dai rischi dei modelli di AI non testati


Costruire un ponte e testarlo facendoci passare sopra le persone. Così Andrew Barto e Richard Sutton, rispettivamente professore emerito all’Università del Massachusetts e professore all’Università di Alberta, appena insigniti del prestigioso Premio Turing per lo sviluppo dellapprendimento per rinforzo, descrivono i rischi del lancio di nuove tecnologie di intelligenza artificiale senza test adeguati.

Andrew Barto

Barto sottolinea l’importanza di mitigare le conseguenze negative della tecnologia attraverso pratiche ingegneristiche sicure, una precauzione che ritiene non venga seguita dalle aziende che sviluppano AI.

Indice degli argomenti:

Le critiche di Barto e Sutton al settore dell’AI

Entrambi gli scienziati criticano la velocità con cui le aziende tecnologiche sviluppano modelli di AI potenti ma inclini agli errori, raccogliendo fondi senza precedenti e investendo miliardi in infrastrutture per l’addestramento e l’esecuzione. Barto critica il settore per essere motivato da incentivi commerciali anziché dalla ricerca.

Richard Sutton

Sutton, d’altro canto, respinge come “hype” la narrativa delle aziende tecnologiche sull’intelligenza generale artificiale (AGI), sostenendo che sistemi più intelligenti delle persone emergeranno con una migliore comprensione della mente umana.

Ottimisti, nonostante le critiche

Nonostante le critiche, Barto e Sutton sono ottimisti sul potenziale dell’apprendimento per rinforzo e dell’AI per portare benefici al mondo. Sutton ritiene che l’intelligenza eccessiva non sia un problema, ma piuttosto un’opportunità per diventare meno avidi e più consapevoli delle situazioni altrui. I due scienziati criticano anche i tagli proposti dall’amministrazione Trump alla spesa federale per la ricerca scientifica, avvertendo che ciò potrebbe compromettere il dominio scientifico degli Stati Uniti e limitare le opportunità di ricerca innovativa.

Richiedi prestito online

Procedura celere

 

Le motivazioni del premio Turing

Ispirati dalla psicologia, Barto e Sutton hanno creato un metodo che premia i sistemi di AI per comportamenti desiderati, facilitando il successo di gruppi di AI di spicco come OpenAI e Google. Questo riconoscimento sottolinea l’importanza degli strumenti informatici nel risolvere problemi scientifici complessi in tempi ridotti
L’assegnazione del premio è arrivata in un momento in cui le scoperte in AI sono state riconosciute anche nei premi Nobel per la chimica e la fisica, evidenziando il ruolo cruciale dell’informatica.

In una serie di articoli iniziati negli anni ’80, Barto e Sutton hanno introdotto le idee principali, costruito le basi matematiche e sviluppato importanti algoritmi per l’apprendimento per rinforzo, uno degli approcci più importanti per la creazione di sistemi intelligenti.

Il Premio ACM A.M. Turing, spesso definito il “Premio Nobel dell’informatica”, prevede un premio di 1 milione di dollari con il sostegno finanziario di Google, Inc. Il premio prende il nome da Alan M. Turing, il matematico britannico che ha articolato le basi matematiche dell’informatica.

Che cos’è l’apprendimento per rinforzo

Il campo dell’intelligenza artificiale si occupa generalmente di costruire agenti, cioè entità che percepiscono e agiscono. Gli agenti più intelligenti sono quelli che scelgono corsi d’azione migliori. Pertanto, la nozione che alcuni corsi d’azione sono migliori di altri è fondamentale per l’AI. La ricompensa – termine preso in prestito dalla psicologia e dalle neuroscienze – indica un segnale fornito a un agente in relazione alla qualità del suo comportamento. L’apprendimento per rinforzo (RL) è il processo di apprendimento di un comportamento migliore in base a questo segnale.

L’idea di apprendere dalla ricompensa è nota agli addestratori di animali da migliaia di anni. In seguito, l’articolo di Alan Turing del 1950, “Computing Machinery and Intelligence”, affrontò la domanda “Le macchine possono pensare?” e propose un approccio all’apprendimento delle macchine basato su ricompense e punizioni.

Sebbene Turing abbia riferito di aver condotto alcuni esperimenti iniziali con questo approccio e Arthur Samuel abbia sviluppato, alla fine degli anni Cinquanta, un programma per giocare a dama che imparava a giocare da solo, nei decenni successivi si sono registrati pochi altri progressi in questo filone dell’AI.

All’inizio degli anni ’80, motivati da osservazioni di psicologia, Barto e il suo dottorando Sutton iniziarono a formulare l’apprendimento per rinforzo come un problema generale.

Essi si rifecero alle basi matematiche fornite dai processi decisionali di Markov (MDP), in cui un agente prende decisioni in un ambiente stocastico (determinato in modo casuale), ricevendo un segnale di ricompensa dopo ogni transizione e mirando a massimizzare la sua ricompensa cumulativa a lungo termine. Mentre la teoria standard degli MDP presuppone che tutto ciò che riguarda l’MDP sia noto all’agente, la struttura RL permette che l’ambiente e le ricompense siano sconosciute. I requisiti minimi di informazione di RL, combinati con la generalità del framework MDP, consentono di applicare gli algoritmi di RL a una vasta gamma di problemi, come spiegato più avanti.

Dilazione debiti

Saldo e stralcio

 

Barto e Sutton, insieme e con altri, hanno sviluppato molti degli approcci algoritmici di base per il RL. Tra questi, il loro principale contributo, l’apprendimento per differenza temporale, che ha rappresentato un importante passo avanti nella risoluzione dei problemi di previsione della ricompensa, così come i metodi di policy-gradient e l’uso delle reti neurali come strumento per rappresentare le funzioni apprese.

I due hanno anche proposto progetti di agenti che combinano apprendimento e pianificazione, dimostrando il valore dell’acquisizione della conoscenza dell’ambiente come base per la pianificazione.

Forse altrettanto influente è stato il loro libro di testo, Reinforcement Learning: An Introduction (1998), che è tuttora il riferimento standard del settore ed è stato citato oltre 75mila volte. Ha permesso a migliaia di ricercatori di comprendere e contribuire a questo campo emergente e continua a ispirare molte attività di ricerca significative nell’informatica di oggi.

Sebbene gli algoritmi di Barto e Sutton siano stati sviluppati decenni fa, i maggiori progressi nelle applicazioni pratiche della RL sono avvenuti negli ultimi quindici anni grazie alla fusione della RL con gli algoritmi di deep learning (sperimentati dai vincitori del premio Turing 2018 Bengio, Hinton e LeCun). Questo ha portato alla tecnica del deep reinforcement learning.

L’esempio più evidente di RL è stata la vittoria del programma informatico AlphaGo sui migliori giocatori umani di Go nel 2016 e nel 2017. Un altro importante risultato recente è stato lo sviluppo del chatbot ChatGPT. ChatGPT è un modello linguistico di grandi dimensioni (LLM) addestrato in due fasi, la seconda delle quali impiega una tecnica chiamata reinforcement learning from human feedback (RLHF), per catturare le aspettative umane.



Source link

***** l’articolo pubblicato è ritenuto affidabile e di qualità*****

Assistenza per i sovraindebitati

Saldo e stralcio

 

Visita il sito e gli articoli pubblicati cliccando sul seguente link

Source link