Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos

Delgado, Tomás

Supervisor(es): Uchitel, Sebastián - Braberman, Víctor

Resumen:

En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.


Detalles Bibliográficos
2023
Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación
Universidad de Buenos Aires
Agencia Nacional de Investigación e Innovación
Síntesis de controladores
Aprendizaje por refuerzo
Redes neuronales
Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Computación
Español
Agencia Nacional de Investigación e Innovación
REDI
https://hdl.handle.net/20.500.12381/3417
Acceso abierto
Reconocimiento 4.0 Internacional. (CC BY)