Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
Supervisor(es): Garat, Diego - Moncecchi, Guillermo
Resumen:
Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado.
2018 | |
Aprendizaje por refuerzos profundo Deep Q-learning Human checkpoint replay |
|
Español | |
Universidad de la República | |
COLIBRI | |
http://hdl.handle.net/20.500.12008/20377 | |
Acceso abierto | |
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND) |
_version_ | 1807523224224792576 |
---|---|
author | Laguna, Rodrigo |
author2 | Melli, Diego Sánchez, Ezequiel |
author2_role | author author |
author_facet | Laguna, Rodrigo Melli, Diego Sánchez, Ezequiel |
author_role | author |
bitstream.checksum.fl_str_mv | 6429389a7df7277b72b7924fdc7d47a9 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e db665000cfeefec819be255513e290a5 |
bitstream.checksumAlgorithm.fl_str_mv | MD5 MD5 MD5 MD5 MD5 |
bitstream.url.fl_str_mv | http://localhost:8080/xmlui/bitstream/20.500.12008/20377/5/license.txt http://localhost:8080/xmlui/bitstream/20.500.12008/20377/2/license_url http://localhost:8080/xmlui/bitstream/20.500.12008/20377/3/license_text http://localhost:8080/xmlui/bitstream/20.500.12008/20377/4/license_rdf http://localhost:8080/xmlui/bitstream/20.500.12008/20377/1/tg-laguna-melli-sanchez.pdf |
collection | COLIBRI |
dc.contributor.filiacion.none.fl_str_mv | Laguna Rodrigo, Universidad de la República (Uruguay). Facultad de Ingeniería Melli Diego, Universidad de la República (Uruguay). Facultad de Ingeniería Sánchez Ezequiel, Universidad de la República (Uruguay). Facultad de Ingeniería |
dc.creator.advisor.none.fl_str_mv | Garat, Diego Moncecchi, Guillermo |
dc.creator.none.fl_str_mv | Laguna, Rodrigo Melli, Diego Sánchez, Ezequiel |
dc.date.accessioned.none.fl_str_mv | 2019-04-02T20:15:41Z |
dc.date.available.none.fl_str_mv | 2019-04-02T20:15:41Z |
dc.date.issued.none.fl_str_mv | 2018 |
dc.description.abstract.none.fl_txt_mv | Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado. |
dc.format.extent.es.fl_str_mv | 87 p. |
dc.format.mimetype.en.fl_str_mv | application/pdf |
dc.identifier.citation.es.fl_str_mv | Laguna, R, Melli, D y Sánchez, E. Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018. |
dc.identifier.uri.none.fl_str_mv | http://hdl.handle.net/20.500.12008/20377 |
dc.language.iso.none.fl_str_mv | es spa |
dc.publisher.es.fl_str_mv | UR.FI.INCO |
dc.rights.license.none.fl_str_mv | Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND) |
dc.rights.none.fl_str_mv | info:eu-repo/semantics/openAccess |
dc.source.none.fl_str_mv | reponame:COLIBRI instname:Universidad de la República instacron:Universidad de la República |
dc.subject.es.fl_str_mv | Aprendizaje por refuerzos profundo Deep Q-learning Human checkpoint replay |
dc.title.none.fl_str_mv | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
dc.type.es.fl_str_mv | Tesis de grado |
dc.type.none.fl_str_mv | info:eu-repo/semantics/bachelorThesis |
dc.type.version.none.fl_str_mv | info:eu-repo/semantics/acceptedVersion |
description | Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado. |
eu_rights_str_mv | openAccess |
format | bachelorThesis |
id | COLIBRI_4e1b1fb33d913deb07de8695d981afc1 |
identifier_str_mv | Laguna, R, Melli, D y Sánchez, E. Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018. |
instacron_str | Universidad de la República |
institution | Universidad de la República |
instname_str | Universidad de la República |
language | spa |
language_invalid_str_mv | es |
network_acronym_str | COLIBRI |
network_name_str | COLIBRI |
oai_identifier_str | oai:colibri.udelar.edu.uy:20.500.12008/20377 |
publishDate | 2018 |
reponame_str | COLIBRI |
repository.mail.fl_str_mv | mabel.seroubian@seciu.edu.uy |
repository.name.fl_str_mv | COLIBRI - Universidad de la República |
repository_id_str | 4771 |
rights_invalid_str_mv | Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND) |
spelling | Laguna Rodrigo, Universidad de la República (Uruguay). Facultad de IngenieríaMelli Diego, Universidad de la República (Uruguay). Facultad de IngenieríaSánchez Ezequiel, Universidad de la República (Uruguay). Facultad de Ingeniería2019-04-02T20:15:41Z2019-04-02T20:15:41Z2018Laguna, R, Melli, D y Sánchez, E. Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo [en línea] Tesis de grado. Montevideo : UR.FI.INCO, 2018.http://hdl.handle.net/20.500.12008/20377Uno de los desafíos del Aprendizaje Automático desde sus comienzos ha sido la resolución de juegos. Los juegos proveen entornos controlados en donde es posible desarrollar y probar los resultados de distintos algoritmos. En particular, los videojuegos muchas veces presentan problemas que para su resolución requieren de secuencias complejas de acciones: tomar objetos en cierto orden, llevarlos a lugares específicos, entre otros. Este trabajo se plantea como objetivo la creación de un jugador artificial para el videojuego Manic Miner sobre la plataforma ZX Spectrum mediante Aprendizaje profundo. Para esto se desarrollan y comparan agentes que aprenden directamente de los píxeles de la pantalla, entrenados mediante la aplicación de distintas variantes de Deep Q Learning: Deep Q-Network (DQN), Double Deep Q-Network (DDQN) y Dueling Network, combinándolas con técnicas de aprendizaje como Human Checkpoint Replay. También se implementa un entorno para esta plataforma, inexistente hasta el momento, que permite su interacción con el agente y una interfaz interactiva para generar checkpoints y editar niveles. A pesar de la complejidad del juego y del tiempo de entrenamiento que requieren estos algoritmos, se logra superar al primer nivel en más de una oportunidad, al asistir a la exploración del agente mediante Human Checkpoint Replay. Además, se analiza cualitativamente la capacidad del agente entrenado para aplicar sus conocimientos en escenarios ligeramente distintos al de entrenamiento gracias al editor de niveles interactivo desarrollado.Submitted by Seroubian Mabel (mabel.seroubian@seciu.edu.uy) on 2019-04-02T20:15:41Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) tg-laguna-melli-sanchez.pdf: 3254314 bytes, checksum: db665000cfeefec819be255513e290a5 (MD5)Made available in DSpace on 2019-04-02T20:15:41Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) tg-laguna-melli-sanchez.pdf: 3254314 bytes, checksum: db665000cfeefec819be255513e290a5 (MD5) Previous issue date: 201887 p.application/pdfesspaUR.FI.INCOLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)info:eu-repo/semantics/openAccessLicencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)Aprendizaje por refuerzos profundoDeep Q-learningHuman checkpoint replayJugador de ZX Spectrum utilizando aprendizaje por refuerzos profundoTesis de gradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionreponame:COLIBRIinstname:Universidad de la Repúblicainstacron:Universidad de la RepúblicaLaguna, RodrigoMelli, DiegoSánchez, EzequielGarat, DiegoMoncecchi, GuillermoUniversidad de la República (Uruguay). Facultad de IngenieríaIngeniero en ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-84267http://localhost:8080/xmlui/bitstream/20.500.12008/20377/5/license.txt6429389a7df7277b72b7924fdc7d47a9MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://localhost:8080/xmlui/bitstream/20.500.12008/20377/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://localhost:8080/xmlui/bitstream/20.500.12008/20377/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://localhost:8080/xmlui/bitstream/20.500.12008/20377/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALtg-laguna-melli-sanchez.pdftg-laguna-melli-sanchez.pdfapplication/pdf3254314http://localhost:8080/xmlui/bitstream/20.500.12008/20377/1/tg-laguna-melli-sanchez.pdfdb665000cfeefec819be255513e290a5MD5120.500.12008/203772024-04-12 14:06:40.31oai:colibri.udelar.edu.uy:20.500.12008/20377VGVybWlub3MgeSBjb25kaWNpb25lcyByZWxhdGl2YXMgYWwgZGVwb3NpdG8gZGUgb2JyYXMKCgpMYXMgb2JyYXMgZGVwb3NpdGFkYXMgZW4gZWwgUmVwb3NpdG9yaW8gc2UgcmlnZW4gcG9yIGxhIE9yZGVuYW56YSBkZSBsb3MgRGVyZWNob3MgZGUgbGEgUHJvcGllZGFkIEludGVsZWN0dWFsICBkZSBsYSBVbml2ZXJzaWRhZCBEZSBMYSBSZXDDumJsaWNhLiAoUmVzLiBOwrogOTEgZGUgQy5ELkMuIGRlIDgvSUlJLzE5OTQg4oCTIEQuTy4gNy9JVi8xOTk0KSB5ICBwb3IgbGEgT3JkZW5hbnphIGRlbCBSZXBvc2l0b3JpbyBBYmllcnRvIGRlIGxhIFVuaXZlcnNpZGFkIGRlIGxhIFJlcMO6YmxpY2EgKFJlcy4gTsK6IDE2IGRlIEMuRC5DLiBkZSAwNy8xMC8yMDE0KS4gCgpBY2VwdGFuZG8gZWwgYXV0b3IgZXN0b3MgdMOpcm1pbm9zIHkgY29uZGljaW9uZXMgZGUgZGVww7NzaXRvIGVuIENPTElCUkksIGxhIFVuaXZlcnNpZGFkIGRlIFJlcMO6YmxpY2EgcHJvY2VkZXLDoSBhOiAgCgphKSBhcmNoaXZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBsYSBvYnJhIGVuIGxvcyBzZXJ2aWRvcmVzIGRlIGxhIFVuaXZlcnNpZGFkIGEgbG9zIGVmZWN0b3MgZGUgZ2FyYW50aXphciBhY2Nlc28sIHNlZ3VyaWRhZCB5IHByZXNlcnZhY2nDs24KYikgY29udmVydGlyIGxhIG9icmEgYSBvdHJvcyBmb3JtYXRvcyBzaSBmdWVyYSBuZWNlc2FyaW8gIHBhcmEgZmFjaWxpdGFyIHN1IHByZXNlcnZhY2nDs24geSBhY2Nlc2liaWxpZGFkIHNpbiBhbHRlcmFyIHN1IGNvbnRlbmlkby4KYykgcmVhbGl6YXIgbGEgY29tdW5pY2FjacOzbiBww7pibGljYSB5IGRpc3BvbmVyIGVsIGFjY2VzbyBsaWJyZSB5IGdyYXR1aXRvIGEgdHJhdsOpcyBkZSBJbnRlcm5ldCBtZWRpYW50ZSBsYSBwdWJsaWNhY2nDs24gZGUgbGEgb2JyYSBiYWpvIGxhIGxpY2VuY2lhIENyZWF0aXZlIENvbW1vbnMgc2VsZWNjaW9uYWRhIHBvciBlbCBwcm9waW8gYXV0b3IuCgoKRW4gY2FzbyBxdWUgZWwgYXV0b3IgaGF5YSBkaWZ1bmRpZG8geSBkYWRvIGEgcHVibGljaWRhZCBhIGxhIG9icmEgZW4gZm9ybWEgcHJldmlhLCAgcG9kcsOhIHNvbGljaXRhciB1biBwZXLDrW9kbyBkZSBlbWJhcmdvIHNvYnJlIGxhIGRpc3BvbmliaWxpZGFkIHDDumJsaWNhIGRlIGxhIG1pc21hLCBlbCBjdWFsIGNvbWVuemFyw6EgYSBwYXJ0aXIgZGUgbGEgYWNlcHRhY2nDs24gZGUgZXN0ZSBkb2N1bWVudG8geSBoYXN0YSBsYSBmZWNoYSBxdWUgaW5kaXF1ZSAuCgpFbCBhdXRvciBhc2VndXJhIHF1ZSBsYSBvYnJhIG5vIGluZnJpZ2UgbmluZ8O6biBkZXJlY2hvIHNvYnJlIHRlcmNlcm9zLCB5YSBzZWEgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsIG8gY3VhbHF1aWVyIG90cm8uCgpFbCBhdXRvciBnYXJhbnRpemEgcXVlIHNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCAgaGEgb2J0ZW5pZG8gZWwgcGVybWlzbyBkZWwgcHJvcGlldGFyaW8gZGUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCB5IHF1ZSBlc2UgbWF0ZXJpYWwgY3V5b3MgZGVyZWNob3Mgc29uIGRlIHRlcmNlcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIHkgcmVjb25vY2lkbyBlbiBlbCB0ZXh0byBvIGNvbnRlbmlkbyBkZWwgZG9jdW1lbnRvIGRlcG9zaXRhZG8gZW4gZWwgUmVwb3NpdG9yaW8uCgpFbiBvYnJhcyBkZSBhdXRvcsOtYSBtw7psdGlwbGUgL3NlIHByZXN1bWUvIHF1ZSBlbCBhdXRvciBkZXBvc2l0YW50ZSBkZWNsYXJhIHF1ZSBoYSByZWNhYmFkbyBlbCBjb25zZW50aW1pZW50byBkZSB0b2RvcyBsb3MgYXV0b3JlcyBwYXJhIHB1YmxpY2FybGEgZW4gZWwgUmVwb3NpdG9yaW8sIHNpZW5kbyDDqXN0ZSBlbCDDum5pY28gcmVzcG9uc2FibGUgZnJlbnRlIGEgY3VhbHF1aWVyIHRpcG8gZGUgcmVjbGFtYWNpw7NuIGRlIGxvcyBvdHJvcyBjb2F1dG9yZXMuCgpFbCBhdXRvciBzZXLDoSByZXNwb25zYWJsZSBkZWwgY29udGVuaWRvIGRlIGxvcyBkb2N1bWVudG9zIHF1ZSBkZXBvc2l0YS4gTGEgVURFTEFSIG5vIHNlcsOhIHJlc3BvbnNhYmxlIHBvciBsYXMgZXZlbnR1YWxlcyB2aW9sYWNpb25lcyBhbCBkZXJlY2hvIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCBlbiBxdWUgcHVlZGEgaW5jdXJyaXIgZWwgYXV0b3IuCgpBbnRlIGN1YWxxdWllciBkZW51bmNpYSBkZSB2aW9sYWNpw7NuIGRlIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCwgbGEgVURFTEFSICBhZG9wdGFyw6EgdG9kYXMgbGFzIG1lZGlkYXMgbmVjZXNhcmlhcyBwYXJhIGV2aXRhciBsYSBjb250aW51YWNpw7NuIGRlIGRpY2hhIGluZnJhY2Npw7NuLCBsYXMgcXVlIHBvZHLDoW4gaW5jbHVpciBlbCByZXRpcm8gZGVsIGFjY2VzbyBhIGxvcyBjb250ZW5pZG9zIHkvbyBtZXRhZGF0b3MgZGVsIGRvY3VtZW50byByZXNwZWN0aXZvLgoKTGEgb2JyYSBzZSBwb25kcsOhIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBhIHRyYXbDqXMgZGUgbGFzIGxpY2VuY2lhcyBDcmVhdGl2ZSBDb21tb25zLCBlbCBhdXRvciBwb2Ryw6Egc2VsZWNjaW9uYXIgdW5hIGRlIGxhcyA2IGxpY2VuY2lhcyBkaXNwb25pYmxlczoKCgpBdHJpYnVjacOzbiAoQ0MgLSBCeSk6IFBlcm1pdGUgdXNhciBsYSBvYnJhIHkgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBzaWVtcHJlIHF1ZSBzZSByZWNvbm96Y2EgYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgQ29tcGFydGlyIElndWFsIChDQyAtIEJ5LVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgaW5jbHVzbyBjb24gZmluZXMgY29tZXJjaWFsZXMsIHBlcm8gbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIGRlYmUgaGFjZXJzZSBtZWRpYW50ZSB1bmEgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIChDQyAtIEJ5LU5DKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzLCByZWNvbm9jaWVuZG8gYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgU2luIERlcml2YWRhcyAoQ0MgLSBCeS1ORCk6IFBlcm1pdGUgZWwgdXNvIGRlIGxhIG9icmEsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBwZXJvIG5vIHNlIHBlcm1pdGUgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGRlYmllbmRvIHJlY29ub2NlciBhbCBhdXRvci4KCkF0cmlidWNpw7NuIOKAkyBObyBDb21lcmNpYWwg4oCTIENvbXBhcnRpciBJZ3VhbCAoQ0Mg4oCTIEJ5LU5DLVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzIHkgbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIHNlIGhhZ2EgbWVkaWFudGUgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIOKAkyBTaW4gRGVyaXZhZGFzIChDQyAtIEJ5LU5DLU5EKTogUGVybWl0ZSB1c2FyIGxhIG9icmEsIHBlcm8gbm8gc2UgcGVybWl0ZSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcyB5IG5vIHNlIHBlcm1pdGUgdXNvIGNvbiBmaW5lcyBjb21lcmNpYWxlcywgZGViaWVuZG8gcmVjb25vY2VyIGFsIGF1dG9yLgoKTG9zIHVzb3MgcHJldmlzdG9zIGVuIGxhcyBsaWNlbmNpYXMgaW5jbHV5ZW4gbGEgZW5hamVuYWNpw7NuLCByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuLCBwdWJsaWNhY2nDs24sIGRpc3RyaWJ1Y2nDs24geSBwdWVzdGEgYSBkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvLiBMYSBjcmVhY2nDs24gZGUgb2JyYXMgZGVyaXZhZGFzIGluY2x1eWUgbGEgYWRhcHRhY2nDs24sIHRyYWR1Y2Npw7NuIHkgZWwgcmVtaXguCgpDdWFuZG8gc2Ugc2VsZWNjaW9uZSB1bmEgbGljZW5jaWEgcXVlIGhhYmlsaXRlIHVzb3MgY29tZXJjaWFsZXMsIGVsIGRlcMOzc2l0byBkZWJlcsOhIHNlciBhY29tcGHDsWFkbyBkZWwgYXZhbCBkZWwgamVyYXJjYSBtw6F4aW1vIGRlbCBTZXJ2aWNpbyBjb3JyZXNwb25kaWVudGUuCg==Universidadhttps://udelar.edu.uy/https://www.colibri.udelar.edu.uy/oai/requestmabel.seroubian@seciu.edu.uyUruguayopendoar:47712024-07-25T14:46:16.636882COLIBRI - Universidad de la Repúblicafalse |
spellingShingle | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo Laguna, Rodrigo Aprendizaje por refuerzos profundo Deep Q-learning Human checkpoint replay |
status_str | acceptedVersion |
title | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
title_full | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
title_fullStr | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
title_full_unstemmed | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
title_short | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
title_sort | Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo |
topic | Aprendizaje por refuerzos profundo Deep Q-learning Human checkpoint replay |
url | http://hdl.handle.net/20.500.12008/20377 |