Estudo de caso de Deep Q-Learning


Aluno: Vítor Kei Taira Tamada
Orientador: Denis Deratani Mauá

Monografia em PDF
Monografia Revisada em PDF
Apreciação pessoal em PDF
Pôster em PDF
Repositório no GitHub

Resumo

Visualização de imagem, abstração de informação e aprendizado por recompensa são tarefas que seres humanos aprendem consideravelmente rápido. Computadores, por outro lado, podem levar horas ou até dias para aprender algo que pessoas fariam em segundos, principalmente quando envolve interpretação de imagens.

Este trabalho buscou estudar a eficiência e capacidade de um agente aprender utilizando deep Q-learning. Aplicando a técnica em três ambientes de características e complexidade diferentes, Gridworld, Pong e Asteroids, foi analisado o grau de sucesso ou insucesso que a inteligência artificial teve neles. No fim, ao observar resultados correspondentes ao nível de dificuldade de cada domínio, é feita uma discussão sobre como suas diferenças foram relevantes para esses níveis de aprendizado.

Proposta

Contexto e motivação

Crianças pequenas e bebês em particular aprendem interagindo com o ambiente: tocam nos objetos, tentam entender aquilo que os rodeia e qual o resultado de suas ações, mesmo que inconscientemente. Quando não há pessoas mais velhas por perto para dizer o que é certo e errado, eles aprendem se machucando ou sentindo prazer, recebendo feedback negativo ou positivo de suas ações.

Conforme crescem, pessoas começam a identificar e compreender objetos por uma complexa associação de características feita inconscientemente. Essa abstração de informação permite que, por exemplo, identifiquem objetos de diferentes tamanhos ou em diferentes locais de uma foto sejam o mesmo.

Avanços recentes no estudo de inteligência artificial permitiram que computadores consigam fazer algo semelhante por meio de aprendizado por reforço e redes neurais convolucionais, uma variação de redes neurais profundas. Enquanto a primeira técnica faz a IA aprender através de recompenas e penalidades ao explorar um ambiente, a segunda faz o computador aprender pela abstração de características e exemplos rotulados. Em particular, a união dessas duas tećnicas, chamada de deep Q-learning (por utilizar approximate Q-learning, um conjunto de métodos de aprendizado por reforço), ganhou bastante destaque nos últimos anos por sua capacidade de atingir desempenho acima de seres humanos em, por exemplo, jogos recebendo apenas dados brutos, como a tela do jogo, como entrada.

Proposta

A proposta do trabalho é estudar e explorar a técnica de aprendizado de máquina deep Q-learning, aplicando-a em três ambientes de diferentes características e graus de dificuldade, Gridworld, Pong, e Asteroids, tendo apenas a tela do ambiente como entrada de dados.

<i>Gridworld</i>, <i>Pong</i>, e <i>Asteroids</i> respectivamente

O desempenho do agente será avaliado pela pontuação obtida ao longo dos episódios e/ou do modelo final em comparação com a de um agente aleatório e/ou de um ser humano quando inseridos, separadamente, no mesmo ambiente. Ao final, é feito um estudo sobre como as diferenças influenciaram nos resultados e que melhorias poderiam ser feitas.

Cronograma aproximado:

Atividade Abr Mai Jun Jul Ago Set Out Nov
Estudo de Q-learning X
Estudo da ferramenta Gym X X
Estudo de Approximate Q-learning X
Implementações básicas X X
Estudo de implementações mais complexas X
Implementações mais complexas X X
Treinamentos X X X
Monografia X X X X