EITC/AI/ARL Advanced Reinforcement Learning és el programa europeu de certificació informàtica sobre l'enfocament de DeepMind per a l'aprenentatge de reforç en intel·ligència artificial.
El pla d'estudis de l'EITC/AI/ARL Advanced Reinforcement Learning se centra en aspectes teòrics i habilitats pràctiques en tècniques d'aprenentatge de reforç des de la perspectiva de DeepMind organitzat dins de l'estructura següent, que inclou un contingut didàctic de vídeo complet com a referència per a aquesta Certificació EITC.
L’aprenentatge de reforç (RL) és una àrea d’aprenentatge automàtic relacionada amb la forma en què els agents intel·ligents han d’actuar en un entorn per maximitzar la noció de recompensa acumulativa. L’aprenentatge de reforç és un dels tres paradigmes bàsics d’aprenentatge automàtic, juntament amb l’aprenentatge supervisat i l’aprenentatge no supervisat.
L’aprenentatge de reforç difereix de l’aprenentatge supervisat en no haver de presentar parells d’entrada/sortida etiquetats i en no necessitar correccions explícites d’accions subòptimes. En el seu lloc, el focus es centra en trobar un equilibri entre l’exploració (de territori desconegut) i l’explotació (del coneixement actual).
L’entorn normalment s’afirma en forma de procés de decisió de Markov (MDP), perquè molts algorismes d’aprenentatge de reforç per a aquest context utilitzen tècniques de programació dinàmica. La principal diferència entre els mètodes clàssics de programació dinàmica i els algoritmes d’aprenentatge de reforç és que aquests últims no assumeixen el coneixement d’un model matemàtic exacte del MDP i s’orienten als grans MDP on els mètodes exactes es fan inviables.
Degut a la seva generalitat, l’aprenentatge de reforç s’estudia en moltes disciplines, com la teoria de jocs, la teoria del control, la investigació d’operacions, la teoria de la informació, l’optimització basada en la simulació, els sistemes multi-agents, la intel·ligència de l’eixam i les estadístiques. A la literatura d’investigació i control d’operacions, l’aprenentatge de reforç s’anomena programació dinàmica aproximada o programació neuro-dinàmica. Els problemes d’interès en l’aprenentatge de reforç també s’han estudiat en la teoria del control òptim, que es refereix principalment a l’existència i caracterització de solucions òptimes, i als algoritmes per al seu càlcul exacte, i menys a l’aprenentatge o aproximació, particularment en absència de un model matemàtic de l’entorn. En economia i teoria de jocs, es pot utilitzar l'aprenentatge de reforç per explicar com pot sorgir l'equilibri sota una racionalitat delimitada.
El reforç bàsic es modelitza com un procés de decisió de Markov (MDP). En matemàtiques, un procés de decisió de Markov (MDP) és un procés de control estocàstic en temps discret. Proporciona un marc matemàtic per modelar la presa de decisions en situacions en què els resultats són en part aleatoris i en part sota el control d’un decisor. Els MDP són útils per estudiar problemes d'optimització resolts mitjançant programació dinàmica. Els MDP es coneixien almenys ja als anys cinquanta. Un cos bàsic d’investigació sobre els processos de decisió de Markov va resultar del llibre de Ronald Howard del 1950, Dynamic Programming and Markov Processes. S'utilitzen en moltes disciplines, inclosa la robòtica, el control automàtic, l'economia i la fabricació. El nom de MDPs prové del matemàtic rus Andrey Markov, ja que són una extensió de les cadenes de Markov.
A cada pas de temps, el procés es troba en algun estat S, i el que pren la decisió pot triar qualsevol acció que estigui disponible a l'estat S. El procés respon al següent pas passant aleatòriament a un nou estat S ', i donant el el que pren la decisió una recompensa corresponent Ra (S, S ').
La probabilitat que el procés passi al seu nou estat S 'està influenciada per l'acció escollida a. Concretament, ve donada per la funció de transició d'estat Pa (S, S '). Així, el següent estat S 'depèn de l'estat actual S i de l'acció del decisor a. Però tenint en compte S i a, és condicionalment independent de tots els estats i accions anteriors. En altres paraules, les transicions d'estat d'un MDP satisfan la propietat de Markov.
Els processos de decisió de Markov són una extensió de les cadenes de Markov; la diferència és l’addició d’accions (permetre l’elecció) i recompenses (donar motivació). Per contra, si només existeix una acció per a cada estat (per exemple, "espera") i totes les recompenses són iguals (per exemple, "zero"), un procés de decisió de Markov es redueix a una cadena de Markov.
Un agent d'aprenentatge de reforç interactua amb el seu entorn en passos de temps discrets. En cada moment t, l'agent rep l'estat actual S (t) i la recompensa r (t). A continuació, tria una acció a (t) del conjunt d’accions disponibles, que posteriorment s’envia a l’entorn. L'entorn passa a un nou estat S (t + 1) i es determina la recompensa r (t + 1) associada a la transició. L'objectiu d'un agent d'aprenentatge de reforç és aprendre una política que maximitzi la recompensa acumulada esperada.
La formulació del problema com a MDP suposa que l’agent observa directament l’estat ambiental actual. En aquest cas, es diu que el problema té una observabilitat completa. Si l'agent només té accés a un subconjunt d'estats o si els estats observats estan corromputs pel soroll, es diu que l'agent té una observabilitat parcial i formalment el problema s'ha de formular com un procés de decisió Markov parcialment observable. En ambdós casos, es pot restringir el conjunt d'accions disponibles per a l'agent. Per exemple, l'estat del saldo d'un compte es pot restringir a positiu; si el valor actual de l'estat és 3 i la transició d'estat intenta reduir el valor en 4, la transició no es permetrà.
Quan es compara el rendiment de l'agent amb el d'un agent que actua de manera òptima, la diferència de rendiment dóna lloc a la noció de pesar. Per actuar de manera òptima, l’agent ha de raonar sobre les conseqüències a llarg termini de les seves accions (és a dir, maximitzar els ingressos futurs), tot i que la recompensa immediata associada a això podria ser negativa.
Per tant, l’aprenentatge de reforç s’adapta especialment a problemes que inclouen una compensació de recompenses a llarg termini o a curt termini. S'ha aplicat amb èxit a diversos problemes, inclosos el control de robots, la programació d'ascensors, les telecomunicacions, el backgammon, les dames i Go (AlphaGo).
Dos elements fan que l'aprenentatge de reforç sigui potent: l'ús de mostres per optimitzar el rendiment i l'ús de l'aproximació de funcions per fer front a entorns grans. Gràcies a aquests dos components clau, l’aprenentatge de reforç es pot utilitzar en entorns grans en les situacions següents:
- Es coneix un model d’entorn, però no hi ha una solució analítica disponible.
- Només es dóna un model de simulació de l’entorn (objecte de l’optimització basada en la simulació).
- L’única manera de recollir informació sobre l’entorn és interactuar amb ell.
Els dos primers d’aquests problemes es podrien considerar problemes de planificació (ja que hi ha alguna forma de model disponible), mentre que l’últim es podria considerar un autèntic problema d’aprenentatge. No obstant això, l'aprenentatge de reforç converteix els dos problemes de planificació en problemes d'aprenentatge automàtic.
El compromís d’exploració amb l’explotació s’ha estudiat més a fons a través del problema de bandits multi-armats i per als MDP de l’espai estatal finit a Burnetas i Katehakis (1997).
L’aprenentatge de reforç requereix mecanismes d’exploració intel·ligents; seleccionar accions aleatòriament, sense fer referència a una distribució de probabilitat estimada, mostra un rendiment baix. El cas dels processos de decisió (petits) finits de Markov és relativament ben entès. No obstant això, a causa de la manca d'algoritmes que escalin bé amb el nombre d'estats (o s'adapten a problemes amb espais d'estats infinits), els mètodes d'exploració senzills són els més pràctics.
Fins i tot si no es té en compte el tema de l’exploració i fins i tot si l’estat era observable, el problema continua sent utilitzar l’experiència passada per esbrinar quines accions condueixen a recompenses acumulatives més altes.
Per familiaritzar-vos en detall amb el pla d'estudis de certificació podeu ampliar i analitzar la taula següent.
El currículum de certificació d'aprenentatge de reforç avançat EITC/AI/ARL fa referència a materials didàctics d'accés obert en forma de vídeo. El procés d'aprenentatge es divideix en una estructura pas a pas (programes -> lliçons -> temes) que cobreix les parts rellevants del currículum. També s'ofereix assessorament il·limitat amb experts del domini.
Per obtenir més informació sobre el procediment de certificació, consulteu Com funciona?.
Recursos de referència del currículum
Control de nivell humà mitjançant la publicació Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Curs d’accés obert sobre aprenentatge de reforç profund a la UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL aplicat al problema del bandit amb braç K de Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Baixeu els materials preparatoris d'autoaprenentatge fora de línia complets per al programa d'aprenentatge de reforç avançat EITC/AI/ARL en un fitxer PDF
Materials preparatoris EITC/AI/ARL - versió estàndard
Materials preparatoris EITC/AI/ARL: versió ampliada amb preguntes de revisió