Agenda de defesas Agenda de defesas

Voltar

Pós-Graduação em Ciência da Computação realiza defesa de dissertação de mestrado sobre Aprendizagem por Reforço

Defesa acontece amanhã (7), às 16h, via Google Meet

O Programa de Pós-Graduação em Ciência da Computação da UFPE promove a defesa de dissertação de mestrado do aluno Mateus Gonçalves Machado, amanhã (7), às 16h. A apresentação acontece de forma remota, através da plataforma Google Meet, e os interessados em assistir devem entrar em contato com o aluno através do e-mail mgm4@cin.ufpe.br. É recomendado que os interessados entrem na sala virtual com o microfone e câmera desligados.

Com o título “DyLam: A Dynamic Reward Weighting Method for Reinforcement Learning Policy Gradient Algorithms”, o trabalho teve a orientação do professor Hansenclever de França Bassani. A banca examinadora é composta pelos professores Tsang Ing Ren (UFPE/Centro de Informática), Anna Helena Reali Costa (USP/Departamento de Engenharia de Computação e Sistemas Digitais) e Hansenclever de França Bassani (UFPE/Centro de Informática).

Resumo

Aprendizagem por Reforço (AR) é um subcampo emergente de Aprendizagem de Máquina no qual um agente interage com um ambiente e aproveita suas experiências para aprender, por tentativa e erro, quais ações são as mais adequadas para cada estado. A cada passo, o agente recebe um sinal de recompensa positivo ou negativo, que é o principal feedback utilizado para o aprendizado. A AR encontra aplicações em diversas áreas, como robótica, bolsa de valores e até mesmo em sistemas de refrigeração, apresentando desempenho sobre-humano no aprendizado de jogos de tabuleiro (Xadrez e Go) e videogames (jogos de Atari, Dota2 e StarCraft2). No entanto, os métodos AR ainda lutam em ambientes com recompensas escassas. Por exemplo, um agente pode receber poucas recompensas por gols em um jogo de futebol. Assim, é difícil associar recompensas (gols) com ações. Os pesquisadores frequentemente introduzem várias recompensas intermediárias para ajudar no aprendizado e contornar esse problema. No entanto, combinar adequadamente várias recompensas para compor o sinal de recompensa único usado pelos métodos AR frequentemente não é uma tarefa fácil. Este trabalho visa resolver este problema específico através da introdução do DyLam. Ele estende os métodos de gradiente de política existentes decompondo a função de recompensa usada no ambiente e ponderando dinamicamente cada componente em função do desempenho do agente na tarefa associada. Provamos a convergência do método proposto e mostramos empiricamente que ele supera métodos concorrentes nos ambientes avaliados em termos de velocidade de aprendizado e, em alguns casos, desempenho final.

Data da última modificação: 06/06/2022, 15:47