Resumen:: Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Publicado

Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos

Delgado, Tomás

Supervisor(es): Uchitel, Sebastián - Braberman, Víctor

Resumen:

En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.

Detalles Bibliográficos
Fecha de publicación:	2023
Financiadores:	Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación Universidad de Buenos Aires Agencia Nacional de Investigación e Innovación
Temas:	Síntesis de controladores Aprendizaje por refuerzo Redes neuronales Ciencias Naturales y Exactas Ciencias de la Computación e Información Ciencias de la Computación
Idioma	Español
Institución:	Agencia Nacional de Investigación e Innovación
Repositorio:	REDI
Enlace(s):	https://hdl.handle.net/20.500.12381/3417
Nivel de acceso:	Acceso abierto
Licencia:	Reconocimiento 4.0 Internacional. (CC BY)

Resumen:
Sumario:	En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.

Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos

Resultados similares