Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo

Laguna, Rodrigo - Melli, Diego - Sánchez, Ezequiel

Supervisor(es): Garat, Diego - Moncecchi, Guillermo

Resumen:

Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado.


Detalles Bibliográficos
2018
Aprendizaje por refuerzos profundo
Deep Q-learning
Human checkpoint replay
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/20377
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)
_version_ 1807523224224792576
author Laguna, Rodrigo
author2 Melli, Diego
Sánchez, Ezequiel
author2_role author
author
author_facet Laguna, Rodrigo
Melli, Diego
Sánchez, Ezequiel
author_role author
bitstream.checksum.fl_str_mv 6429389a7df7277b72b7924fdc7d47a9
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
db665000cfeefec819be255513e290a5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
bitstream.url.fl_str_mv http://localhost:8080/xmlui/bitstream/20.500.12008/20377/5/license.txt
http://localhost:8080/xmlui/bitstream/20.500.12008/20377/2/license_url
http://localhost:8080/xmlui/bitstream/20.500.12008/20377/3/license_text
http://localhost:8080/xmlui/bitstream/20.500.12008/20377/4/license_rdf
http://localhost:8080/xmlui/bitstream/20.500.12008/20377/1/tg-laguna-melli-sanchez.pdf
collection COLIBRI
dc.contributor.filiacion.none.fl_str_mv Laguna Rodrigo, Universidad de la República (Uruguay). Facultad de Ingeniería
Melli Diego, Universidad de la República (Uruguay). Facultad de Ingeniería
Sánchez Ezequiel, Universidad de la República (Uruguay). Facultad de Ingeniería
dc.creator.advisor.none.fl_str_mv Garat, Diego
Moncecchi, Guillermo
dc.creator.none.fl_str_mv Laguna, Rodrigo
Melli, Diego
Sánchez, Ezequiel
dc.date.accessioned.none.fl_str_mv 2019-04-02T20:15:41Z
dc.date.available.none.fl_str_mv 2019-04-02T20:15:41Z
dc.date.issued.none.fl_str_mv 2018
dc.description.abstract.none.fl_txt_mv Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado.
dc.format.extent.es.fl_str_mv 87 p.
dc.format.mimetype.en.fl_str_mv application/pdf
dc.identifier.citation.es.fl_str_mv Laguna, R, Melli, D y Sánchez, E. Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018.
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12008/20377
dc.language.iso.none.fl_str_mv es
spa
dc.publisher.es.fl_str_mv UR.FI.INCO
dc.rights.license.none.fl_str_mv Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:COLIBRI
instname:Universidad de la República
instacron:Universidad de la República
dc.subject.es.fl_str_mv Aprendizaje por refuerzos profundo
Deep Q-learning
Human checkpoint replay
dc.title.none.fl_str_mv Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
dc.type.es.fl_str_mv Tesis de grado
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
description Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado.
eu_rights_str_mv openAccess
format bachelorThesis
id COLIBRI_4e1b1fb33d913deb07de8695d981afc1
identifier_str_mv Laguna, R, Melli, D y Sánchez, E. Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018.
instacron_str Universidad de la República
institution Universidad de la República
instname_str Universidad de la República
language spa
language_invalid_str_mv es
network_acronym_str COLIBRI
network_name_str COLIBRI
oai_identifier_str oai:colibri.udelar.edu.uy:20.500.12008/20377
publishDate 2018
reponame_str COLIBRI
repository.mail.fl_str_mv mabel.seroubian@seciu.edu.uy
repository.name.fl_str_mv COLIBRI - Universidad de la República
repository_id_str 4771
rights_invalid_str_mv Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)
spelling Laguna Rodrigo, Universidad de la República (Uruguay). Facultad de IngenieríaMelli Diego, Universidad de la República (Uruguay). Facultad de IngenieríaSánchez Ezequiel, Universidad de la República (Uruguay). Facultad de Ingeniería2019-04-02T20:15:41Z2019-04-02T20:15:41Z2018Laguna, R, Melli, D y Sánchez, E. Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018.http://hdl.handle.net/20.500.12008/20377Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado.Submitted by Seroubian Mabel (mabel.seroubian@seciu.edu.uy) on 2019-04-02T20:15:41Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) tg-laguna-melli-sanchez.pdf: 3254314 bytes, checksum: db665000cfeefec819be255513e290a5 (MD5)Made available in DSpace on 2019-04-02T20:15:41Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) tg-laguna-melli-sanchez.pdf: 3254314 bytes, checksum: db665000cfeefec819be255513e290a5 (MD5) Previous issue date: 201887 p.application/pdfesspaUR.FI.INCOLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)info:eu-repo/semantics/openAccessLicencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)Aprendizaje por refuerzos profundoDeep Q-learningHuman checkpoint replayJugador de ZX Spectrum utilizando aprendizaje por refuerzos profundoTesis de gradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionreponame:COLIBRIinstname:Universidad de la Repúblicainstacron:Universidad de la RepúblicaLaguna, RodrigoMelli, DiegoSánchez, EzequielGarat, DiegoMoncecchi, GuillermoUniversidad de la República (Uruguay). Facultad de IngenieríaIngeniero en ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-84267http://localhost:8080/xmlui/bitstream/20.500.12008/20377/5/license.txt6429389a7df7277b72b7924fdc7d47a9MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://localhost:8080/xmlui/bitstream/20.500.12008/20377/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://localhost:8080/xmlui/bitstream/20.500.12008/20377/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://localhost:8080/xmlui/bitstream/20.500.12008/20377/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALtg-laguna-melli-sanchez.pdftg-laguna-melli-sanchez.pdfapplication/pdf3254314http://localhost:8080/xmlui/bitstream/20.500.12008/20377/1/tg-laguna-melli-sanchez.pdfdb665000cfeefec819be255513e290a5MD5120.500.12008/203772024-04-12 14:06:40.31oai:colibri.udelar.edu.uy:20.500.12008/20377VGVybWlub3MgeSBjb25kaWNpb25lcyByZWxhdGl2YXMgYWwgZGVwb3NpdG8gZGUgb2JyYXMKCgpMYXMgb2JyYXMgZGVwb3NpdGFkYXMgZW4gZWwgUmVwb3NpdG9yaW8gc2UgcmlnZW4gcG9yIGxhIE9yZGVuYW56YSBkZSBsb3MgRGVyZWNob3MgZGUgbGEgUHJvcGllZGFkIEludGVsZWN0dWFsICBkZSBsYSBVbml2ZXJzaWRhZCBEZSBMYSBSZXDDumJsaWNhLiAoUmVzLiBOwrogOTEgZGUgQy5ELkMuIGRlIDgvSUlJLzE5OTQg4oCTIEQuTy4gNy9JVi8xOTk0KSB5ICBwb3IgbGEgT3JkZW5hbnphIGRlbCBSZXBvc2l0b3JpbyBBYmllcnRvIGRlIGxhIFVuaXZlcnNpZGFkIGRlIGxhIFJlcMO6YmxpY2EgKFJlcy4gTsK6IDE2IGRlIEMuRC5DLiBkZSAwNy8xMC8yMDE0KS4gCgpBY2VwdGFuZG8gZWwgYXV0b3IgZXN0b3MgdMOpcm1pbm9zIHkgY29uZGljaW9uZXMgZGUgZGVww7NzaXRvIGVuIENPTElCUkksIGxhIFVuaXZlcnNpZGFkIGRlIFJlcMO6YmxpY2EgcHJvY2VkZXLDoSBhOiAgCgphKSBhcmNoaXZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBsYSBvYnJhIGVuIGxvcyBzZXJ2aWRvcmVzIGRlIGxhIFVuaXZlcnNpZGFkIGEgbG9zIGVmZWN0b3MgZGUgZ2FyYW50aXphciBhY2Nlc28sIHNlZ3VyaWRhZCB5IHByZXNlcnZhY2nDs24KYikgY29udmVydGlyIGxhIG9icmEgYSBvdHJvcyBmb3JtYXRvcyBzaSBmdWVyYSBuZWNlc2FyaW8gIHBhcmEgZmFjaWxpdGFyIHN1IHByZXNlcnZhY2nDs24geSBhY2Nlc2liaWxpZGFkIHNpbiBhbHRlcmFyIHN1IGNvbnRlbmlkby4KYykgcmVhbGl6YXIgbGEgY29tdW5pY2FjacOzbiBww7pibGljYSB5IGRpc3BvbmVyIGVsIGFjY2VzbyBsaWJyZSB5IGdyYXR1aXRvIGEgdHJhdsOpcyBkZSBJbnRlcm5ldCBtZWRpYW50ZSBsYSBwdWJsaWNhY2nDs24gZGUgbGEgb2JyYSBiYWpvIGxhIGxpY2VuY2lhIENyZWF0aXZlIENvbW1vbnMgc2VsZWNjaW9uYWRhIHBvciBlbCBwcm9waW8gYXV0b3IuCgoKRW4gY2FzbyBxdWUgZWwgYXV0b3IgaGF5YSBkaWZ1bmRpZG8geSBkYWRvIGEgcHVibGljaWRhZCBhIGxhIG9icmEgZW4gZm9ybWEgcHJldmlhLCAgcG9kcsOhIHNvbGljaXRhciB1biBwZXLDrW9kbyBkZSBlbWJhcmdvIHNvYnJlIGxhIGRpc3BvbmliaWxpZGFkIHDDumJsaWNhIGRlIGxhIG1pc21hLCBlbCBjdWFsIGNvbWVuemFyw6EgYSBwYXJ0aXIgZGUgbGEgYWNlcHRhY2nDs24gZGUgZXN0ZSBkb2N1bWVudG8geSBoYXN0YSBsYSBmZWNoYSBxdWUgaW5kaXF1ZSAuCgpFbCBhdXRvciBhc2VndXJhIHF1ZSBsYSBvYnJhIG5vIGluZnJpZ2UgbmluZ8O6biBkZXJlY2hvIHNvYnJlIHRlcmNlcm9zLCB5YSBzZWEgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsIG8gY3VhbHF1aWVyIG90cm8uCgpFbCBhdXRvciBnYXJhbnRpemEgcXVlIHNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCAgaGEgb2J0ZW5pZG8gZWwgcGVybWlzbyBkZWwgcHJvcGlldGFyaW8gZGUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCB5IHF1ZSBlc2UgbWF0ZXJpYWwgY3V5b3MgZGVyZWNob3Mgc29uIGRlIHRlcmNlcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIHkgcmVjb25vY2lkbyBlbiBlbCB0ZXh0byBvIGNvbnRlbmlkbyBkZWwgZG9jdW1lbnRvIGRlcG9zaXRhZG8gZW4gZWwgUmVwb3NpdG9yaW8uCgpFbiBvYnJhcyBkZSBhdXRvcsOtYSBtw7psdGlwbGUgL3NlIHByZXN1bWUvIHF1ZSBlbCBhdXRvciBkZXBvc2l0YW50ZSBkZWNsYXJhIHF1ZSBoYSByZWNhYmFkbyBlbCBjb25zZW50aW1pZW50byBkZSB0b2RvcyBsb3MgYXV0b3JlcyBwYXJhIHB1YmxpY2FybGEgZW4gZWwgUmVwb3NpdG9yaW8sIHNpZW5kbyDDqXN0ZSBlbCDDum5pY28gcmVzcG9uc2FibGUgZnJlbnRlIGEgY3VhbHF1aWVyIHRpcG8gZGUgcmVjbGFtYWNpw7NuIGRlIGxvcyBvdHJvcyBjb2F1dG9yZXMuCgpFbCBhdXRvciBzZXLDoSByZXNwb25zYWJsZSBkZWwgY29udGVuaWRvIGRlIGxvcyBkb2N1bWVudG9zIHF1ZSBkZXBvc2l0YS4gTGEgVURFTEFSIG5vIHNlcsOhIHJlc3BvbnNhYmxlIHBvciBsYXMgZXZlbnR1YWxlcyB2aW9sYWNpb25lcyBhbCBkZXJlY2hvIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCBlbiBxdWUgcHVlZGEgaW5jdXJyaXIgZWwgYXV0b3IuCgpBbnRlIGN1YWxxdWllciBkZW51bmNpYSBkZSB2aW9sYWNpw7NuIGRlIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCwgbGEgVURFTEFSICBhZG9wdGFyw6EgdG9kYXMgbGFzIG1lZGlkYXMgbmVjZXNhcmlhcyBwYXJhIGV2aXRhciBsYSBjb250aW51YWNpw7NuIGRlIGRpY2hhIGluZnJhY2Npw7NuLCBsYXMgcXVlIHBvZHLDoW4gaW5jbHVpciBlbCByZXRpcm8gZGVsIGFjY2VzbyBhIGxvcyBjb250ZW5pZG9zIHkvbyBtZXRhZGF0b3MgZGVsIGRvY3VtZW50byByZXNwZWN0aXZvLgoKTGEgb2JyYSBzZSBwb25kcsOhIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBhIHRyYXbDqXMgZGUgbGFzIGxpY2VuY2lhcyBDcmVhdGl2ZSBDb21tb25zLCBlbCBhdXRvciBwb2Ryw6Egc2VsZWNjaW9uYXIgdW5hIGRlIGxhcyA2IGxpY2VuY2lhcyBkaXNwb25pYmxlczoKCgpBdHJpYnVjacOzbiAoQ0MgLSBCeSk6IFBlcm1pdGUgdXNhciBsYSBvYnJhIHkgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBzaWVtcHJlIHF1ZSBzZSByZWNvbm96Y2EgYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgQ29tcGFydGlyIElndWFsIChDQyAtIEJ5LVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgaW5jbHVzbyBjb24gZmluZXMgY29tZXJjaWFsZXMsIHBlcm8gbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIGRlYmUgaGFjZXJzZSBtZWRpYW50ZSB1bmEgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIChDQyAtIEJ5LU5DKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzLCByZWNvbm9jaWVuZG8gYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgU2luIERlcml2YWRhcyAoQ0MgLSBCeS1ORCk6IFBlcm1pdGUgZWwgdXNvIGRlIGxhIG9icmEsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBwZXJvIG5vIHNlIHBlcm1pdGUgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGRlYmllbmRvIHJlY29ub2NlciBhbCBhdXRvci4KCkF0cmlidWNpw7NuIOKAkyBObyBDb21lcmNpYWwg4oCTIENvbXBhcnRpciBJZ3VhbCAoQ0Mg4oCTIEJ5LU5DLVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzIHkgbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIHNlIGhhZ2EgbWVkaWFudGUgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIOKAkyBTaW4gRGVyaXZhZGFzIChDQyAtIEJ5LU5DLU5EKTogUGVybWl0ZSB1c2FyIGxhIG9icmEsIHBlcm8gbm8gc2UgcGVybWl0ZSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcyB5IG5vIHNlIHBlcm1pdGUgdXNvIGNvbiBmaW5lcyBjb21lcmNpYWxlcywgZGViaWVuZG8gcmVjb25vY2VyIGFsIGF1dG9yLgoKTG9zIHVzb3MgcHJldmlzdG9zIGVuIGxhcyBsaWNlbmNpYXMgaW5jbHV5ZW4gbGEgZW5hamVuYWNpw7NuLCByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuLCBwdWJsaWNhY2nDs24sIGRpc3RyaWJ1Y2nDs24geSBwdWVzdGEgYSBkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvLiBMYSBjcmVhY2nDs24gZGUgb2JyYXMgZGVyaXZhZGFzIGluY2x1eWUgbGEgYWRhcHRhY2nDs24sIHRyYWR1Y2Npw7NuIHkgZWwgcmVtaXguCgpDdWFuZG8gc2Ugc2VsZWNjaW9uZSB1bmEgbGljZW5jaWEgcXVlIGhhYmlsaXRlIHVzb3MgY29tZXJjaWFsZXMsIGVsIGRlcMOzc2l0byBkZWJlcsOhIHNlciBhY29tcGHDsWFkbyBkZWwgYXZhbCBkZWwgamVyYXJjYSBtw6F4aW1vIGRlbCBTZXJ2aWNpbyBjb3JyZXNwb25kaWVudGUuCg==Universidadhttps://udelar.edu.uy/https://www.colibri.udelar.edu.uy/oai/requestmabel.seroubian@seciu.edu.uyUruguayopendoar:47712024-07-25T14:46:16.636882COLIBRI - Universidad de la Repúblicafalse
spellingShingle Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
Laguna, Rodrigo
Aprendizaje por refuerzos profundo
Deep Q-learning
Human checkpoint replay
status_str acceptedVersion
title Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
title_full Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
title_fullStr Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
title_full_unstemmed Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
title_short Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
title_sort Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
topic Aprendizaje por refuerzos profundo
Deep Q-learning
Human checkpoint replay
url http://hdl.handle.net/20.500.12008/20377