Jogando RTS com Aprendizado de Reforço Profundo

Aluno: Victor Aliende da Matta
Supervisor: Prof. Dr. Denis Deratani Mauá

Resumo

Neste trabalho, introduzimos a área de Aprendizado de Reforço Profundo. Tomamos um jogo de estratégia em tempo real como ambiente de exemplo, chamado MiniRTS (desenvolvido para pesquisa), que consiste de dois jogadores controlando várias unidades para ganhar recursos, construir estruturas e destruir as estruturas do inimigo. Estudamos algoritmos baseados em gradiente de política, como o REINFORCE, Actor-Critic e A3C junto com Redes Neurais Convolucionais. Implementamos o algoritmo A3C, modelamos nosso agente como uma Rede Neural Convolucional de duas cabeças, uma determinando a política enquanto a outra fazia o trabalho de crítico e testamos nosso agente contra duas estratégias fixas, obtendo 53% e 67% de taxa de vitória.

Apreciação Pessoal e Crítica

Meu objetivo pessoal com o TCC foi principalmente ter a chance de estudar aprendizado de reforço, uma área que há muito tempo atrai minha curiosidade, mas ainda raramente é presente em cursos de graduação, inclusive no BCC. Nesse aspecto, acredito que o trabalho foi um grande sucesso, me permitindo mergulhar em diversos temas de interesse, alguns não sendo representados na monografia.

O desenvolvimento do trabalho encontrou múltiplos desafios, em especial a dificuldade de trabalhar com o ambiente ELF e a quantidade de recursos computacionais necessários para o treinamento dos agentes, como consequência, os resultados finais foram piores do que inicialmente esperados por mim.

O trabalho final tomou forma de uma introdução a área de Aprendizado de Reforço Profundo, com ênfase em transmitir algumas intuições adquiridas sobre Aprendizado de Máquina em geral, e levar pessoas a algumas referências principais. Com isso, espero que ele possa ajudar outros alunos com interesse na área.