Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos

Delgado, Tomás

Supervisor(es): Uchitel, Sebastián - Braberman, Víctor

Resumen:

En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.


Detalles Bibliográficos
2023
Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación
Universidad de Buenos Aires
Agencia Nacional de Investigación e Innovación
Síntesis de controladores
Aprendizaje por refuerzo
Redes neuronales
Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Computación
Español
Agencia Nacional de Investigación e Innovación
REDI
https://hdl.handle.net/20.500.12381/3417
Acceso abierto
Reconocimiento 4.0 Internacional. (CC BY)
_version_ 1814959261808066560
author Delgado, Tomás
author_facet Delgado, Tomás
author_role author
bitstream.checksum.fl_str_mv a4ce09f01b5dd771727aa05c73851623
357789bf3def5bfc90abe68f3c9b2d35
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
bitstream.url.fl_str_mv https://redi.anii.org.uy/jspui/bitstream/20.500.12381/3417/2/license.txt
https://redi.anii.org.uy/jspui/bitstream/20.500.12381/3417/1/Tesis%20Tomas%20Delgado.pdf
collection REDI
dc.creator.advisor.none.fl_str_mv Uchitel, Sebastián
Braberman, Víctor
dc.creator.none.fl_str_mv Delgado, Tomás
dc.date.accessioned.none.fl_str_mv 2024-02-16T12:54:28Z
dc.date.available.none.fl_str_mv 2024-02-16T12:54:28Z
dc.date.issued.none.fl_str_mv 2023-05-02
dc.description.abstract.none.fl_txt_mv En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.
dc.description.sponsorship.none.fl_txt_mv Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la Innovación
Universidad de Buenos Aires
Agencia Nacional de Investigación e Innovación
dc.identifier.anii.es.fl_str_mv IA_1_2022_1_173516
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12381/3417
dc.language.iso.none.fl_str_mv spa
dc.publisher.es.fl_str_mv Universidad de Buenos Aires
dc.relation.uri.none.fl_str_mv https://hdl.handle.net/20.500.12381/3418
https://hdl.handle.net/20.500.12381/3419
https://hdl.handle.net/20.500.12381/3420
dc.rights.*.fl_str_mv Acceso abierto
dc.rights.license.none.fl_str_mv Reconocimiento 4.0 Internacional. (CC BY)
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:REDI
instname:Agencia Nacional de Investigación e Innovación
instacron:Agencia Nacional de Investigación e Innovación
dc.subject.anii.none.fl_str_mv Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Computación
dc.subject.es.fl_str_mv Síntesis de controladores
Aprendizaje por refuerzo
Redes neuronales
dc.title.none.fl_str_mv Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
dc.type.es.fl_str_mv Trabajo final de grado
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.es.fl_str_mv Publicado
dc.type.version.none.fl_str_mv info:eu-repo/semantics/publishedVersion
description En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.
eu_rights_str_mv openAccess
format bachelorThesis
id REDI_a8ad4711c94fdba1b24eda5d84e08601
identifier_str_mv IA_1_2022_1_173516
instacron_str Agencia Nacional de Investigación e Innovación
institution Agencia Nacional de Investigación e Innovación
instname_str Agencia Nacional de Investigación e Innovación
language spa
network_acronym_str REDI
network_name_str REDI
oai_identifier_str oai:redi.anii.org.uy:20.500.12381/3417
publishDate 2023
reponame_str REDI
repository.mail.fl_str_mv jmaldini@anii.org.uy
repository.name.fl_str_mv REDI - Agencia Nacional de Investigación e Innovación
repository_id_str 9421
rights_invalid_str_mv Reconocimiento 4.0 Internacional. (CC BY)
Acceso abierto
spelling Reconocimiento 4.0 Internacional. (CC BY)Acceso abiertoinfo:eu-repo/semantics/openAccess2024-02-16T12:54:28Z2024-02-16T12:54:28Z2023-05-02https://hdl.handle.net/20.500.12381/3417IA_1_2022_1_173516En esta tesis desarrollamos un primer método para aprender una heurística que guíe la exploración a partir de la experiencia. En primer lugar, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que, a pesar de la falta de garantías teóricas, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún, las políticas inducidas en instancias grandes superan en promedio a la mejor heurística desarrollada por humanos, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark.Agencia Nacional de Promoción de la Investigación, el Desarrollo Tecnológico y la InnovaciónUniversidad de Buenos AiresAgencia Nacional de Investigación e InnovaciónspaUniversidad de Buenos Aireshttps://hdl.handle.net/20.500.12381/3418https://hdl.handle.net/20.500.12381/3419https://hdl.handle.net/20.500.12381/3420Síntesis de controladoresAprendizaje por refuerzoRedes neuronalesCiencias Naturales y ExactasCiencias de la Computación e InformaciónCiencias de la ComputaciónAprendiendo políticas de exploración generales para escalar la síntesis de controladores discretosTrabajo final de gradoPublicadoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis//Ciencias Naturales y Exactas/Ciencias de la Computación e Información/Ciencias de la Computaciónreponame:REDIinstname:Agencia Nacional de Investigación e Innovacióninstacron:Agencia Nacional de Investigación e InnovaciónDelgado, TomásUchitel, SebastiánBraberman, VíctorLICENSElicense.txtlicense.txttext/plain; charset=utf-84967https://redi.anii.org.uy/jspui/bitstream/20.500.12381/3417/2/license.txta4ce09f01b5dd771727aa05c73851623MD52ORIGINALTesis Tomas Delgado.pdfTesis Tomas Delgado.pdfapplication/pdf1731683https://redi.anii.org.uy/jspui/bitstream/20.500.12381/3417/1/Tesis%20Tomas%20Delgado.pdf357789bf3def5bfc90abe68f3c9b2d35MD5120.500.12381/34172024-02-16 10:39:01.503oai:redi.anii.org.uy:20.500.12381/3417PHA+PGI+QUNVRVJETyBERSBDRVNJT04gTk8gRVhDTFVTSVZBIERFIERFUkVDSE9TPC9iPjwvcD4NCg0KPHA+QWNlcHRhbmRvIGxhIGNlc2nDs24gZGUgZGVyZWNob3MgZWwgdXN1YXJpbyBERUNMQVJBIHF1ZSBvc3RlbnRhIGxhIGNvbmRpY2nDs24gZGUgYXV0b3IgZW4gZWwgc2VudGlkbyBxdWUgb3RvcmdhIGxhIGxlZ2lzbGFjacOzbiB2aWdlbnRlIHNvYnJlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCBkZSBsYSBvYnJhIG9yaWdpbmFsIHF1ZSBlc3TDoSBlbnZpYW5kbyAo4oCcbGEgb2JyYeKAnSkuIEVuIGNhc28gZGUgc2VyIGNvdGl0dWxhciwgZWwgYXV0b3IgZGVjbGFyYSBxdWUgY3VlbnRhIGNvbiBlbCAgY29uc2VudGltaWVudG8gZGUgbG9zIHJlc3RhbnRlcyB0aXR1bGFyZXMgcGFyYSBoYWNlciBsYSBwcmVzZW50ZSBjZXNpw7NuLiBFbiBjYXNvIGRlIHByZXZpYSBjZXNpw7NuIGRlIGxvcyBkZXJlY2hvcyBkZSBleHBsb3RhY2nDs24gc29icmUgbGEgb2JyYSBhIHRlcmNlcm9zLCBlbCBhdXRvciBkZWNsYXJhIHF1ZSB0aWVuZSBsYSBhdXRvcml6YWNpw7NuIGV4cHJlc2EgZGUgZGljaG9zIHRpdHVsYXJlcyBkZSBkZXJlY2hvcyBhIGxvcyBmaW5lcyBkZSBlc3RhIGNlc2nDs24sIG8gYmllbiBxdWUgaGEgY29uc2VydmFkbyBsYSBmYWN1bHRhZCBkZSBjZWRlciBlc3RvcyBkZXJlY2hvcyBlbiBsYSBmb3JtYSBwcmV2aXN0YSBlbiBsYSBwcmVzZW50ZSBjZXNpw7NuLjwvcD4NCg0KPHA+Q29uIGVsIGZpbiBkZSBkYXIgbGEgbcOheGltYSBkaWZ1c2nDs24gYSBsYSBvYnJhIGEgdHJhdsOpcyBkZWwgcmVwb3NpdG9yaW8gZGUgYWNjZXNvIGFiaWVydG8gUkVESSAoaHR0cHM6Ly9yZWRpLmFuaWkub3JnLnV5KSwgZWwgQVVUT1IgQ0VERSBhIDxiPkFnZW5jaWEgTmFjaW9uYWwgZGUgSW52ZXN0aWdhY2nDs24gZSBJbm5vdmFjacOzbjwvYj4gKDxiPkFOSUk8L2I+KSwgZGUgZm9ybWEgZ3JhdHVpdGEgeSBOTyBFWENMVVNJVkEsIGNvbiBjYXLDoWN0ZXIgaXJyZXZvY2FibGUgZSBpbGltaXRhZG8gZW4gZWwgdGllbXBvIHkgY29uIMOhbWJpdG8gbXVuZGlhbCwgbG9zIGRlcmVjaG9zIGRlIHJlcHJvZHVjY2nDs24sIGRlIGRpc3RyaWJ1Y2nDs24sIGRlIGNvbXVuaWNhY2nDs24gcMO6YmxpY2EsIGluY2x1aWRvIGVsIGRlcmVjaG8gZGUgcHVlc3RhIGEgZGlzcG9zaWNpw7NuIGVsZWN0csOzbmljYSwgcGFyYSBxdWUgcHVlZGEgc2VyIHV0aWxpemFkYSBkZSBmb3JtYSBsaWJyZSB5IGdyYXR1aXRhIHBvciB0b2RvcyBsb3MgcXVlIGxvIGRlc2Vlbi48L3A+DQoNCjxwPkxhIGNlc2nDs24gc2UgcmVhbGl6YSBiYWpvIGxhcyBzaWd1aWVudGVzIGNvbmRpY2lvbmVzOjwvcD4NCg0KPHA+TGEgdGl0dWxhcmlkYWQgZGUgbGEgb2JyYSBzZWd1aXLDoSBjb3JyZXNwb25kaWVuZG8gYWwgQXV0b3IgeSBsYSBwcmVzZW50ZSBjZXNpw7NuIGRlIGRlcmVjaG9zIHBlcm1pdGlyw6EgYSA8Yj5BTklJPC9iPjo8L3A+DQoNCjx1bD4NCjxsaSB2YWx1ZT0oYSk+VHJhbnNmb3JtYXIgbGEgb2JyYSBlbiBsYSBtZWRpZGEgZW4gcXVlIHNlYSBuZWNlc2FyaW8gcGFyYSBhZGFwdGFybGEgYSBjdWFscXVpZXIgdGVjbm9sb2fDrWEgc3VzY2VwdGlibGUgZGUgaW5jb3Jwb3JhY2nDs24gYSBJbnRlcm5ldDsgcmVhbGl6YXIgbGFzIGFkYXB0YWNpb25lcyBuZWNlc2FyaWFzIHBhcmEgaGFjZXIgcG9zaWJsZSBzdSBhY2Nlc28geSB2aXN1YWxpemFjacOzbiBwZXJtYW5lbnRlLCBhw7puIHBvciBwYXJ0ZSBkZSBwZXJzb25hcyBjb24gZGlzY2FwYWNpZGFkLCByZWFsaXphciBsYXMgbWlncmFjaW9uZXMgZGUgZm9ybWF0b3MgcGFyYSBhc2VndXJhciBsYSBwcmVzZXJ2YWNpw7NuIGEgbGFyZ28gcGxhem8sIGluY29ycG9yYXIgbG9zIG1ldGFkYXRvcyBuZWNlc2FyaW9zIHBhcmEgcmVhbGl6YXIgZWwgcmVnaXN0cm8gZGUgbGEgb2JyYSwgZSBpbmNvcnBvcmFyIHRhbWJpw6luIOKAnG1hcmNhcyBkZSBhZ3Vh4oCdIG8gY3VhbHF1aWVyIG90cm8gc2lzdGVtYSBkZSBzZWd1cmlkYWQgbyBkZSBwcm90ZWNjacOzbiBvIGRlIGlkZW50aWZpY2FjacOzbiBkZSBwcm9jZWRlbmNpYS4gRW4gbmluZ8O6biBjYXNvIGRpY2hhcyBtb2RpZmljYWNpb25lcyBpbXBsaWNhcsOhbiBhZHVsdGVyYWNpb25lcyBlbiBlbCBjb250ZW5pZG8gZGUgbGEgb2JyYS48L2xpPiANCjxsaSB2YWx1ZT0oYik+UmVwcm9kdWNpciBsYSBvYnJhIGVuIHVuIG1lZGlvIGRpZ2l0YWwgcGFyYSBzdSBpbmNvcnBvcmFjacOzbiBhIHNpc3RlbWFzIGRlIGLDunNxdWVkYSB5IHJlY3VwZXJhY2nDs24sIGluY2x1eWVuZG8gZWwgZGVyZWNobyBhIHJlcHJvZHVjaXIgeSBhbG1hY2VuYXJsYSBlbiBzZXJ2aWRvcmVzIHUgb3Ryb3MgbWVkaW9zIGRpZ2l0YWxlcyBhIGxvcyBlZmVjdG9zIGRlIHNlZ3VyaWRhZCB5IHByZXNlcnZhY2nDs24uPC9saT4gDQo8bGkgdmFsdWU9KGMpPlBlcm1pdGlyIGEgbG9zIHVzdWFyaW9zIGxhIGRlc2NhcmdhIGRlIGNvcGlhcyBlbGVjdHLDs25pY2FzIGRlIGxhIG9icmEgZW4gdW4gc29wb3J0ZSBkaWdpdGFsLjwvbGk+IA0KPGxpIHZhbHVlPShkKT5SZWFsaXphciBsYSBjb211bmljYWNpw7NuIHDDumJsaWNhIHkgcHVlc3RhIGEgZGlzcG9zaWNpw7NuIGRlIGxhIG9icmEgYWNjZXNpYmxlIGRlIG1vZG8gbGlicmUgeSBncmF0dWl0byBhIHRyYXbDqXMgZGUgSW50ZXJuZXQuDQo8L3VsPg0KDQo8cD5FbiB2aXJ0dWQgZGVsIGNhcsOhY3RlciBubyBleGNsdXNpdm8gZGUgbGEgY2VzacOzbiwgZWwgQXV0b3IgY29uc2VydmEgdG9kb3MgbG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNvYnJlIGxhIG9icmEsIHkgcG9kcsOhIHBvbmVybGEgYSBkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvIGVuIGVzdGEgeSBlbiBwb3N0ZXJpb3JlcyB2ZXJzaW9uZXMsIGEgdHJhdsOpcyBkZSBsb3MgbWVkaW9zIHF1ZSBlc3RpbWUgb3BvcnR1bm9zLjwvcD4NCg0KPHA+RWwgQXV0b3IgZGVjbGFyYSBiYWpvIGp1cmFtZW50byBxdWUgbGEgcHJlc2VudGUgY2VzacOzbiBubyBpbmZyaW5nZSBuaW5nw7puIGRlcmVjaG8gZGUgdGVyY2Vyb3MsIHlhIHNlYW4gZGUgcHJvcGllZGFkIGluZHVzdHJpYWwsIGludGVsZWN0dWFsIG8gY3VhbHF1aWVyIG90cm8geSBnYXJhbnRpemEgcXVlIGVsIGNvbnRlbmlkbyBkZSBsYSBvYnJhIG5vIGF0ZW50YSBjb250cmEgbG9zIGRlcmVjaG9zIGFsIGhvbm9yLCBhIGxhIGludGltaWRhZCB5IGEgbGEgaW1hZ2VuIGRlIHRlcmNlcm9zLCBuaSBlcyBkaXNjcmltaW5hdG9yaW8uIDxiPkFOSUk8L2I+IGVzdGFyw6EgZXhlbnRhIGRlIGxhIHJldmlzacOzbiBkZWwgY29udGVuaWRvIGRlIGxhIG9icmEsIHF1ZSBlbiB0b2RvIGNhc28gcGVybWFuZWNlcsOhIGJham8gbGEgcmVzcG9uc2FiaWxpZGFkIGV4Y2x1c2l2YSBkZWwgQXV0b3IuPC9wPg0KDQo8cD5MYSBvYnJhIHNlIHBvbmRyw6EgYSBkaXNwb3NpY2nDs24gZGUgbG9zIHVzdWFyaW9zIHBhcmEgcXVlIGhhZ2FuIGRlIGVsbGEgdW4gdXNvIGp1c3RvIHkgcmVzcGV0dW9zbyBkZSBsb3MgZGVyZWNob3MgZGVsIGF1dG9yIHkgY29uIGZpbmVzIGRlIGVzdHVkaW8sIGludmVzdGlnYWNpw7NuLCBvIGN1YWxxdWllciBvdHJvIGZpbiBsw61jaXRvLiBFbCBtZW5jaW9uYWRvIHVzbywgbcOhcyBhbGzDoSBkZSBsYSBjb3BpYSBwcml2YWRhLCByZXF1ZXJpcsOhIHF1ZSBzZSBjaXRlIGxhIGZ1ZW50ZSB5IHNlIHJlY29ub3pjYSBsYSBhdXRvcsOtYS4gQSB0YWxlcyBmaW5lcyBlbCBBdXRvciBhY2VwdGEgZWwgdXNvIGRlIGxpY2VuY2lhcyBDcmVhdGl2ZSBDb21tb25zIHkgRUxJR0UgdW5hIGRlIGVzdGFzIGxpY2VuY2lhcyBlc3RhbmRhcml6YWRhcyBhIGxvcyBmaW5lcyBkZSBjb211bmljYXIgc3Ugb2JyYS48L3A+DQoNCjxwPkVsIEF1dG9yLCBjb21vIGdhcmFudGUgZGUgbGEgYXV0b3LDrWEgZGUgbGEgb2JyYSB5IGVuIHJlbGFjacOzbiBhIGxhIG1pc21hLCBkZWNsYXJhIHF1ZSA8Yj5BTklJPC9iPiBzZSBlbmN1ZW50cmEgbGlicmUgZGUgdG9kbyB0aXBvIGRlIHJlc3BvbnNhYmlsaWRhZCwgc2VhIMOpc3RhIGNpdmlsLCBhZG1pbmlzdHJhdGl2YSBvIHBlbmFsLCB5IHF1ZSDDqWwgbWlzbW8gYXN1bWUgbGEgcmVzcG9uc2FiaWxpZGFkIGZyZW50ZSBhIGN1YWxxdWllciByZWNsYW1vIG8gZGVtYW5kYSBwb3IgcGFydGUgZGUgdGVyY2Vyb3MuIDxiPkFOSUk8L2I+IGVzdGFyw6EgZXhlbnRhIGRlIGVqZXJjaXRhciBhY2Npb25lcyBsZWdhbGVzIGVuIG5vbWJyZSBkZWwgQXV0b3IgZW4gZWwgc3VwdWVzdG8gZGUgaW5mcmFjY2lvbmVzIGEgZGVyZWNob3MgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsIGRlcml2YWRvcyBkZWwgZGVww7NzaXRvIHkgYXJjaGl2byBkZSBsYSBvYnJhLjwvcD4NCg0KPHA+PGI+QU5JSTwvYj4gbm90aWZpY2Fyw6EgYWwgQXV0b3IgZGUgY3VhbHF1aWVyIHJlY2xhbWFjacOzbiBxdWUgcmVjaWJhIGRlIHRlcmNlcm9zIGVuIHJlbGFjacOzbiBjb24gbGEgb2JyYSB5LCBlbiBwYXJ0aWN1bGFyLCBkZSByZWNsYW1hY2lvbmVzIHJlbGF0aXZhcyBhIGxvcyBkZXJlY2hvcyBkZSBwcm9waWVkYWQgaW50ZWxlY3R1YWwgc29icmUgZWxsYS48L3A+DQoNCjxwPkVsIEF1dG9yIHBvZHLDoSBzb2xpY2l0YXIgZWwgcmV0aXJvIG8gbGEgaW52aXNpYmlsaXphY2nDs24gZGUgbGEgb2JyYSBkZSBSRURJIHPDs2xvIHBvciBjYXVzYSBqdXN0aWZpY2FkYS4gQSB0YWwgZmluIGRlYmVyw6EgbWFuaWZlc3RhciBzdSB2b2x1bnRhZCBlbiBmb3JtYSBmZWhhY2llbnRlIHkgYWNyZWRpdGFyIGRlYmlkYW1lbnRlIGxhIGNhdXNhIGp1c3RpZmljYWRhLiBBc2ltaXNtbyA8Yj5BTklJPC9iPiBwb2Ryw6EgcmV0aXJhciBvIGludmlzaWJpbGl6YXIgbGEgb2JyYSBkZSBSRURJLCBwcmV2aWEgbm90aWZpY2FjacOzbiBhbCBBdXRvciwgZW4gc3VwdWVzdG9zIHN1ZmljaWVudGVtZW50ZSBqdXN0aWZpY2Fkb3MsIG8gZW4gY2FzbyBkZSByZWNsYW1hY2lvbmVzIGRlIHRlcmNlcm9zLjwvcD4=Gobiernohttps://www.anii.org.uy/https://redi.anii.org.uy/oai/requestjmaldini@anii.org.uyUruguayopendoar:94212024-02-16T13:39:01REDI - Agencia Nacional de Investigación e Innovaciónfalse
spellingShingle Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
Delgado, Tomás
Síntesis de controladores
Aprendizaje por refuerzo
Redes neuronales
Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Computación
status_str publishedVersion
title Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
title_full Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
title_fullStr Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
title_full_unstemmed Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
title_short Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
title_sort Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos
topic Síntesis de controladores
Aprendizaje por refuerzo
Redes neuronales
Ciencias Naturales y Exactas
Ciencias de la Computación e Información
Ciencias de la Computación
url https://hdl.handle.net/20.500.12381/3417