DEV Community

Cover image for Resum tècnic sobre AWS DeepRacer
Jordi Garcia Castillon
Jordi Garcia Castillon

Posted on

Resum tècnic sobre AWS DeepRacer

AWS DeepRacer és una plataforma desenvolupada per Amazon Web Services (AWS) que permet als desenvolupadors experimentar amb l'aprenentatge per reforç mitjançant un vehicle autònom en miniatura. Aquest vehicle, d'escala 1/18, pot ser entrenat per conduir-se a si mateix utilitzant models d'aprenentatge per reforç que es desenvolupen i s'avaluen en un entorn de simulació tridimensional proporcionat per AWS.

Components Principals

Consola AWS DeepRacer: És una interfície gràfica d'usuari que permet als desenvolupadors crear, entrenar i avaluar models d'aprenentatge per reforç. La consola facilita la creació de treballs d'entrenament on es defineixen funcions de recompensa, algoritmes d'optimització, entorns de simulació i hiperparàmetres.

Vehicle AWS DeepRacer: Es tracta d'un vehicle físic equipat amb un mòdul de computació capaç d'executar inferències utilitzant models entrenats. Aquest vehicle es connecta a internet per descarregar el programari necessari i permet l'accés a la consola del dispositiu per operar-lo mitjançant un ordinador o dispositiu mòbil.

Lliga AWS DeepRacer: Una competició global d'automobilisme autònom on els participants poden competir per premis i reconeixement. Aquesta lliga proporciona un entorn per comparar habilitats en aprenentatge automàtic amb altres desenvolupadors.

Aprenentatge per Reforç

L'aprenentatge per reforç (AR) és un mètode d'aprenentatge automàtic que es basa en la presa de decisions autònomes per part d'un agent per assolir objectius específics mitjançant interaccions amb l'entorn. En el context de l'AWS DeepRacer, l'agent és el vehicle, i l'entorn és la pista de conducció. Els agents reben recompenses per prendre accions que els porten a assolir els seus objectius de manera eficient.

Espai d'Accions i Funció de Recompensa

L'espai d'accions defineix totes les accions possibles que un agent pot realitzar en cada estat de l'entorn. AWS DeepRacer permet entrenar agents en espais d'accions discrets o continus. La funció de recompensa és clau, ja que incentiva l'agent a realitzar accions que augmentin la seva recompensa total a llarg termini. Un exemple senzill seria recompensar el vehicle per mantenir-se al centre de la pista i penalitzar-lo per sortir-se'n.

Algoritmes d'Entrenament

AWS DeepRacer utilitza principalment dos algoritmes d'aprenentatge per reforç:

Proximal Policy Optimization (PPO): Un algoritme d'aprenentatge on-policy que aprèn una funció de valor basada en les observacions de l'entorn fetes per la política actual.

Soft Actor-Critic (SAC): Un algoritme off-policy que pot utilitzar observacions fetes per polítiques anteriors, maximitzant l'entropia per equilibrar l'exploració i l'explotació.

Flux de Treball

El procés d'entrenament amb AWS DeepRacer implica:

Inicialitzar la simulació amb una pista virtual, un agent i un fons.

L'agent pren accions basades en l'estat de l'entorn.

L'entorn simulat actualitza la posició de l'agent i retorna una recompensa.

El model de xarxa neuronal es guarda periòdicament.

L'entrenament s'atura després d'un límit de temps especificat.

Avaluar el model entrenat en un entorn simulat per verificar-ne el rendiment.

Després de l'entrenament, el model -si s'escau- es pot descarregar i desplegar al vehicle físic AWS DeepRacer per a proves en un entorn real.

Reducció de la Bretxa Sim2Real

Un dels reptes principals és la discrepància entre el rendiment del model en simulació i en el món real. AWS DeepRacer aborda aquesta bretxa mitjançant l'alineació de les freqüències d'acció i inferència entre l'agent simulat i el vehicle físic, així com la variació aleatòria de la posició inicial de l'agent durant l'entrenament per assegurar una cobertura uniforme de la pista.

Conclusió

AWS DeepRacer ofereix una plataforma accessible per als desenvolupadors per experimentar amb l'aprenentatge per reforç. La integració de la consola AWS DeepRacer, el vehicle físic i la Lliga AWS DeepRacer facilita un aprenentatge iteratiu i progressiu en entorns virtuals i reals, fent que l'aprenentatge per reforç sigui més accessible i aplicable a problemes del món real.

Jordi G. Castillón

Top comments (0)