Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
Supervisor(es): Cancela Bosi, Héctor
Resumen:
El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria.
In this research we try to approximate Nash equilibria in Uruguayan Truco: a positive-sum and imperfect information card game for its 2, 4 and 6 player variants; being this a PPDA-complete problem. We adapt and evaluate several agents based on modern Computational Game Theory as well as modern Deep Reinforcement Learning (DRL): from Counterfactual Regret Minimization (CFR) and its main variants to Deep Monte Carlo (DMC). We formulate and prove a theorem which states that every game of Truco is set to finish in 2n − 1 hands at most, where n is the agreed maximum score and use this result to introduce T1K22 : a dataset containing 79,000 random hands of uruguayan Truco. We then use this dataset for evaluation tasks on three baselines: a random walker, a deterministic agent and the author himself. After 2 weeks of training, starting from scratch and without human knowledge, our Monte Carlo based agents defeated every baseline achieving a win rate (WR) of approximately 91 %, 70 % and 59 % respectively. We also introduce the D-Index: a Truco-specific gameplay metric for evaluation purposes. Finally, we develop and evaluate an unsafe search module based on concurrent Monte Carlo rollouts based upon the previous blueprints. Under this technique, some agents are able to outperform the best agents developed in the first part of this research but now using strategies 99.4 % smaller.
2023 | |
Teoría de juegos computacional Juegos de información imperfecta Inteligencia artificial Minimización del arrepentimiento Aprendizaje por Refuerzo Profundo Búsqueda Insegura Truco Computational game theory Imperfect information games Artificial intelligence Regret minimization Reinforcement learning Deep reinforcement learning Unsafe search |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/39789 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
_version_ | 1807523230106255360 |
---|---|
author | Filevich, Juan Pablo |
author_facet | Filevich, Juan Pablo |
author_role | author |
bitstream.checksum.fl_str_mv | 6429389a7df7277b72b7924fdc7d47a9 a006180e3f5b2ad0b88185d14284c0e0 1df05be915d5c44b48b8b2e7a082b91a 1996b8461bc290aef6a27d78c67b6b52 42d014023b037fe40fafea52f00a9968 |
bitstream.checksumAlgorithm.fl_str_mv | MD5 MD5 MD5 MD5 MD5 |
bitstream.url.fl_str_mv | http://localhost:8080/xmlui/bitstream/20.500.12008/39789/5/license.txt http://localhost:8080/xmlui/bitstream/20.500.12008/39789/2/license_url http://localhost:8080/xmlui/bitstream/20.500.12008/39789/3/license_text http://localhost:8080/xmlui/bitstream/20.500.12008/39789/4/license_rdf http://localhost:8080/xmlui/bitstream/20.500.12008/39789/1/Fi23.pdf |
collection | COLIBRI |
dc.contributor.filiacion.none.fl_str_mv | Filevich Juan Pablo, Universidad de la República (Uruguay). Facultad de Ingeniería |
dc.creator.advisor.none.fl_str_mv | Cancela Bosi, Héctor |
dc.creator.none.fl_str_mv | Filevich, Juan Pablo |
dc.date.accessioned.none.fl_str_mv | 2023-09-05T12:32:01Z |
dc.date.available.none.fl_str_mv | 2023-09-05T12:32:01Z |
dc.date.issued.none.fl_str_mv | 2023 |
dc.description.abstract.none.fl_txt_mv | El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria. In this research we try to approximate Nash equilibria in Uruguayan Truco: a positive-sum and imperfect information card game for its 2, 4 and 6 player variants; being this a PPDA-complete problem. We adapt and evaluate several agents based on modern Computational Game Theory as well as modern Deep Reinforcement Learning (DRL): from Counterfactual Regret Minimization (CFR) and its main variants to Deep Monte Carlo (DMC). We formulate and prove a theorem which states that every game of Truco is set to finish in 2n − 1 hands at most, where n is the agreed maximum score and use this result to introduce T1K22 : a dataset containing 79,000 random hands of uruguayan Truco. We then use this dataset for evaluation tasks on three baselines: a random walker, a deterministic agent and the author himself. After 2 weeks of training, starting from scratch and without human knowledge, our Monte Carlo based agents defeated every baseline achieving a win rate (WR) of approximately 91 %, 70 % and 59 % respectively. We also introduce the D-Index: a Truco-specific gameplay metric for evaluation purposes. Finally, we develop and evaluate an unsafe search module based on concurrent Monte Carlo rollouts based upon the previous blueprints. Under this technique, some agents are able to outperform the best agents developed in the first part of this research but now using strategies 99.4 % smaller. |
dc.format.extent.es.fl_str_mv | 162 p. |
dc.format.mimetype.es.fl_str_mv | application/pdf |
dc.identifier.citation.es.fl_str_mv | Filevich, J. Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023. |
dc.identifier.uri.none.fl_str_mv | https://hdl.handle.net/20.500.12008/39789 |
dc.language.iso.none.fl_str_mv | es spa |
dc.publisher.es.fl_str_mv | Udelar.FI |
dc.rights.license.none.fl_str_mv | Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
dc.rights.none.fl_str_mv | info:eu-repo/semantics/openAccess |
dc.source.none.fl_str_mv | reponame:COLIBRI instname:Universidad de la República instacron:Universidad de la República |
dc.subject.es.fl_str_mv | Teoría de juegos computacional Juegos de información imperfecta Inteligencia artificial Minimización del arrepentimiento Aprendizaje por Refuerzo Profundo Búsqueda Insegura Truco Computational game theory Imperfect information games Artificial intelligence Regret minimization Reinforcement learning Deep reinforcement learning Unsafe search |
dc.title.none.fl_str_mv | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
dc.type.es.fl_str_mv | Tesis de grado |
dc.type.none.fl_str_mv | info:eu-repo/semantics/bachelorThesis |
dc.type.version.none.fl_str_mv | info:eu-repo/semantics/acceptedVersion |
description | El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria. |
eu_rights_str_mv | openAccess |
format | bachelorThesis |
id | COLIBRI_dc0bf1f87a77eecedc42fdb82f59910f |
identifier_str_mv | Filevich, J. Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023. |
instacron_str | Universidad de la República |
institution | Universidad de la República |
instname_str | Universidad de la República |
language | spa |
language_invalid_str_mv | es |
network_acronym_str | COLIBRI |
network_name_str | COLIBRI |
oai_identifier_str | oai:colibri.udelar.edu.uy:20.500.12008/39789 |
publishDate | 2023 |
reponame_str | COLIBRI |
repository.mail.fl_str_mv | mabel.seroubian@seciu.edu.uy |
repository.name.fl_str_mv | COLIBRI - Universidad de la República |
repository_id_str | 4771 |
rights_invalid_str_mv | Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
spelling | Filevich Juan Pablo, Universidad de la República (Uruguay). Facultad de Ingeniería2023-09-05T12:32:01Z2023-09-05T12:32:01Z2023Filevich, J. Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023.https://hdl.handle.net/20.500.12008/39789El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria.In this research we try to approximate Nash equilibria in Uruguayan Truco: a positive-sum and imperfect information card game for its 2, 4 and 6 player variants; being this a PPDA-complete problem. We adapt and evaluate several agents based on modern Computational Game Theory as well as modern Deep Reinforcement Learning (DRL): from Counterfactual Regret Minimization (CFR) and its main variants to Deep Monte Carlo (DMC). We formulate and prove a theorem which states that every game of Truco is set to finish in 2n − 1 hands at most, where n is the agreed maximum score and use this result to introduce T1K22 : a dataset containing 79,000 random hands of uruguayan Truco. We then use this dataset for evaluation tasks on three baselines: a random walker, a deterministic agent and the author himself. After 2 weeks of training, starting from scratch and without human knowledge, our Monte Carlo based agents defeated every baseline achieving a win rate (WR) of approximately 91 %, 70 % and 59 % respectively. We also introduce the D-Index: a Truco-specific gameplay metric for evaluation purposes. Finally, we develop and evaluate an unsafe search module based on concurrent Monte Carlo rollouts based upon the previous blueprints. Under this technique, some agents are able to outperform the best agents developed in the first part of this research but now using strategies 99.4 % smaller.Submitted by Cabrera Gabriela (gfcabrerarossi@gmail.com) on 2023-09-01T15:25:30Z No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) Fi23.pdf: 26006328 bytes, checksum: 42d014023b037fe40fafea52f00a9968 (MD5)Approved for entry into archive by Machado Jimena (jmachado@fing.edu.uy) on 2023-09-04T18:43:52Z (GMT) No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) Fi23.pdf: 26006328 bytes, checksum: 42d014023b037fe40fafea52f00a9968 (MD5)Made available in DSpace by Luna Fabiana (fabiana.luna@seciu.edu.uy) on 2023-09-05T12:32:01Z (GMT). No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) Fi23.pdf: 26006328 bytes, checksum: 42d014023b037fe40fafea52f00a9968 (MD5) Previous issue date: 2023162 p.application/pdfesspaUdelar.FILas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)info:eu-repo/semantics/openAccessLicencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)Teoría de juegos computacionalJuegos de información imperfectaInteligencia artificialMinimización del arrepentimientoAprendizaje por Refuerzo ProfundoBúsqueda InseguraTrucoComputational game theoryImperfect information gamesArtificial intelligenceRegret minimizationReinforcement learningDeep reinforcement learningUnsafe searchAproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automáticoTesis de gradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionreponame:COLIBRIinstname:Universidad de la Repúblicainstacron:Universidad de la RepúblicaFilevich, Juan PabloCancela Bosi, HéctorUniversidad de la República (Uruguay). Facultad de IngenieríaIngeniero en ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-84267http://localhost:8080/xmlui/bitstream/20.500.12008/39789/5/license.txt6429389a7df7277b72b7924fdc7d47a9MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-850http://localhost:8080/xmlui/bitstream/20.500.12008/39789/2/license_urla006180e3f5b2ad0b88185d14284c0e0MD52license_textlicense_texttext/html; charset=utf-838767http://localhost:8080/xmlui/bitstream/20.500.12008/39789/3/license_text1df05be915d5c44b48b8b2e7a082b91aMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-823149http://localhost:8080/xmlui/bitstream/20.500.12008/39789/4/license_rdf1996b8461bc290aef6a27d78c67b6b52MD54ORIGINALFi23.pdfFi23.pdfapplication/pdf26006328http://localhost:8080/xmlui/bitstream/20.500.12008/39789/1/Fi23.pdf42d014023b037fe40fafea52f00a9968MD5120.500.12008/397892024-04-12 14:06:40.568oai:colibri.udelar.edu.uy:20.500.12008/39789VGVybWlub3MgeSBjb25kaWNpb25lcyByZWxhdGl2YXMgYWwgZGVwb3NpdG8gZGUgb2JyYXMKCgpMYXMgb2JyYXMgZGVwb3NpdGFkYXMgZW4gZWwgUmVwb3NpdG9yaW8gc2UgcmlnZW4gcG9yIGxhIE9yZGVuYW56YSBkZSBsb3MgRGVyZWNob3MgZGUgbGEgUHJvcGllZGFkIEludGVsZWN0dWFsICBkZSBsYSBVbml2ZXJzaWRhZCBEZSBMYSBSZXDDumJsaWNhLiAoUmVzLiBOwrogOTEgZGUgQy5ELkMuIGRlIDgvSUlJLzE5OTQg4oCTIEQuTy4gNy9JVi8xOTk0KSB5ICBwb3IgbGEgT3JkZW5hbnphIGRlbCBSZXBvc2l0b3JpbyBBYmllcnRvIGRlIGxhIFVuaXZlcnNpZGFkIGRlIGxhIFJlcMO6YmxpY2EgKFJlcy4gTsK6IDE2IGRlIEMuRC5DLiBkZSAwNy8xMC8yMDE0KS4gCgpBY2VwdGFuZG8gZWwgYXV0b3IgZXN0b3MgdMOpcm1pbm9zIHkgY29uZGljaW9uZXMgZGUgZGVww7NzaXRvIGVuIENPTElCUkksIGxhIFVuaXZlcnNpZGFkIGRlIFJlcMO6YmxpY2EgcHJvY2VkZXLDoSBhOiAgCgphKSBhcmNoaXZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBsYSBvYnJhIGVuIGxvcyBzZXJ2aWRvcmVzIGRlIGxhIFVuaXZlcnNpZGFkIGEgbG9zIGVmZWN0b3MgZGUgZ2FyYW50aXphciBhY2Nlc28sIHNlZ3VyaWRhZCB5IHByZXNlcnZhY2nDs24KYikgY29udmVydGlyIGxhIG9icmEgYSBvdHJvcyBmb3JtYXRvcyBzaSBmdWVyYSBuZWNlc2FyaW8gIHBhcmEgZmFjaWxpdGFyIHN1IHByZXNlcnZhY2nDs24geSBhY2Nlc2liaWxpZGFkIHNpbiBhbHRlcmFyIHN1IGNvbnRlbmlkby4KYykgcmVhbGl6YXIgbGEgY29tdW5pY2FjacOzbiBww7pibGljYSB5IGRpc3BvbmVyIGVsIGFjY2VzbyBsaWJyZSB5IGdyYXR1aXRvIGEgdHJhdsOpcyBkZSBJbnRlcm5ldCBtZWRpYW50ZSBsYSBwdWJsaWNhY2nDs24gZGUgbGEgb2JyYSBiYWpvIGxhIGxpY2VuY2lhIENyZWF0aXZlIENvbW1vbnMgc2VsZWNjaW9uYWRhIHBvciBlbCBwcm9waW8gYXV0b3IuCgoKRW4gY2FzbyBxdWUgZWwgYXV0b3IgaGF5YSBkaWZ1bmRpZG8geSBkYWRvIGEgcHVibGljaWRhZCBhIGxhIG9icmEgZW4gZm9ybWEgcHJldmlhLCAgcG9kcsOhIHNvbGljaXRhciB1biBwZXLDrW9kbyBkZSBlbWJhcmdvIHNvYnJlIGxhIGRpc3BvbmliaWxpZGFkIHDDumJsaWNhIGRlIGxhIG1pc21hLCBlbCBjdWFsIGNvbWVuemFyw6EgYSBwYXJ0aXIgZGUgbGEgYWNlcHRhY2nDs24gZGUgZXN0ZSBkb2N1bWVudG8geSBoYXN0YSBsYSBmZWNoYSBxdWUgaW5kaXF1ZSAuCgpFbCBhdXRvciBhc2VndXJhIHF1ZSBsYSBvYnJhIG5vIGluZnJpZ2UgbmluZ8O6biBkZXJlY2hvIHNvYnJlIHRlcmNlcm9zLCB5YSBzZWEgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsIG8gY3VhbHF1aWVyIG90cm8uCgpFbCBhdXRvciBnYXJhbnRpemEgcXVlIHNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCAgaGEgb2J0ZW5pZG8gZWwgcGVybWlzbyBkZWwgcHJvcGlldGFyaW8gZGUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCB5IHF1ZSBlc2UgbWF0ZXJpYWwgY3V5b3MgZGVyZWNob3Mgc29uIGRlIHRlcmNlcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIHkgcmVjb25vY2lkbyBlbiBlbCB0ZXh0byBvIGNvbnRlbmlkbyBkZWwgZG9jdW1lbnRvIGRlcG9zaXRhZG8gZW4gZWwgUmVwb3NpdG9yaW8uCgpFbiBvYnJhcyBkZSBhdXRvcsOtYSBtw7psdGlwbGUgL3NlIHByZXN1bWUvIHF1ZSBlbCBhdXRvciBkZXBvc2l0YW50ZSBkZWNsYXJhIHF1ZSBoYSByZWNhYmFkbyBlbCBjb25zZW50aW1pZW50byBkZSB0b2RvcyBsb3MgYXV0b3JlcyBwYXJhIHB1YmxpY2FybGEgZW4gZWwgUmVwb3NpdG9yaW8sIHNpZW5kbyDDqXN0ZSBlbCDDum5pY28gcmVzcG9uc2FibGUgZnJlbnRlIGEgY3VhbHF1aWVyIHRpcG8gZGUgcmVjbGFtYWNpw7NuIGRlIGxvcyBvdHJvcyBjb2F1dG9yZXMuCgpFbCBhdXRvciBzZXLDoSByZXNwb25zYWJsZSBkZWwgY29udGVuaWRvIGRlIGxvcyBkb2N1bWVudG9zIHF1ZSBkZXBvc2l0YS4gTGEgVURFTEFSIG5vIHNlcsOhIHJlc3BvbnNhYmxlIHBvciBsYXMgZXZlbnR1YWxlcyB2aW9sYWNpb25lcyBhbCBkZXJlY2hvIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCBlbiBxdWUgcHVlZGEgaW5jdXJyaXIgZWwgYXV0b3IuCgpBbnRlIGN1YWxxdWllciBkZW51bmNpYSBkZSB2aW9sYWNpw7NuIGRlIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCwgbGEgVURFTEFSICBhZG9wdGFyw6EgdG9kYXMgbGFzIG1lZGlkYXMgbmVjZXNhcmlhcyBwYXJhIGV2aXRhciBsYSBjb250aW51YWNpw7NuIGRlIGRpY2hhIGluZnJhY2Npw7NuLCBsYXMgcXVlIHBvZHLDoW4gaW5jbHVpciBlbCByZXRpcm8gZGVsIGFjY2VzbyBhIGxvcyBjb250ZW5pZG9zIHkvbyBtZXRhZGF0b3MgZGVsIGRvY3VtZW50byByZXNwZWN0aXZvLgoKTGEgb2JyYSBzZSBwb25kcsOhIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBhIHRyYXbDqXMgZGUgbGFzIGxpY2VuY2lhcyBDcmVhdGl2ZSBDb21tb25zLCBlbCBhdXRvciBwb2Ryw6Egc2VsZWNjaW9uYXIgdW5hIGRlIGxhcyA2IGxpY2VuY2lhcyBkaXNwb25pYmxlczoKCgpBdHJpYnVjacOzbiAoQ0MgLSBCeSk6IFBlcm1pdGUgdXNhciBsYSBvYnJhIHkgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBzaWVtcHJlIHF1ZSBzZSByZWNvbm96Y2EgYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgQ29tcGFydGlyIElndWFsIChDQyAtIEJ5LVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgaW5jbHVzbyBjb24gZmluZXMgY29tZXJjaWFsZXMsIHBlcm8gbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIGRlYmUgaGFjZXJzZSBtZWRpYW50ZSB1bmEgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIChDQyAtIEJ5LU5DKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzLCByZWNvbm9jaWVuZG8gYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgU2luIERlcml2YWRhcyAoQ0MgLSBCeS1ORCk6IFBlcm1pdGUgZWwgdXNvIGRlIGxhIG9icmEsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBwZXJvIG5vIHNlIHBlcm1pdGUgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGRlYmllbmRvIHJlY29ub2NlciBhbCBhdXRvci4KCkF0cmlidWNpw7NuIOKAkyBObyBDb21lcmNpYWwg4oCTIENvbXBhcnRpciBJZ3VhbCAoQ0Mg4oCTIEJ5LU5DLVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzIHkgbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIHNlIGhhZ2EgbWVkaWFudGUgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIOKAkyBTaW4gRGVyaXZhZGFzIChDQyAtIEJ5LU5DLU5EKTogUGVybWl0ZSB1c2FyIGxhIG9icmEsIHBlcm8gbm8gc2UgcGVybWl0ZSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcyB5IG5vIHNlIHBlcm1pdGUgdXNvIGNvbiBmaW5lcyBjb21lcmNpYWxlcywgZGViaWVuZG8gcmVjb25vY2VyIGFsIGF1dG9yLgoKTG9zIHVzb3MgcHJldmlzdG9zIGVuIGxhcyBsaWNlbmNpYXMgaW5jbHV5ZW4gbGEgZW5hamVuYWNpw7NuLCByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuLCBwdWJsaWNhY2nDs24sIGRpc3RyaWJ1Y2nDs24geSBwdWVzdGEgYSBkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvLiBMYSBjcmVhY2nDs24gZGUgb2JyYXMgZGVyaXZhZGFzIGluY2x1eWUgbGEgYWRhcHRhY2nDs24sIHRyYWR1Y2Npw7NuIHkgZWwgcmVtaXguCgpDdWFuZG8gc2Ugc2VsZWNjaW9uZSB1bmEgbGljZW5jaWEgcXVlIGhhYmlsaXRlIHVzb3MgY29tZXJjaWFsZXMsIGVsIGRlcMOzc2l0byBkZWJlcsOhIHNlciBhY29tcGHDsWFkbyBkZWwgYXZhbCBkZWwgamVyYXJjYSBtw6F4aW1vIGRlbCBTZXJ2aWNpbyBjb3JyZXNwb25kaWVudGUuCg==Universidadhttps://udelar.edu.uy/https://www.colibri.udelar.edu.uy/oai/requestmabel.seroubian@seciu.edu.uyUruguayopendoar:47712024-07-25T14:46:29.105062COLIBRI - Universidad de la Repúblicafalse |
spellingShingle | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático Filevich, Juan Pablo Teoría de juegos computacional Juegos de información imperfecta Inteligencia artificial Minimización del arrepentimiento Aprendizaje por Refuerzo Profundo Búsqueda Insegura Truco Computational game theory Imperfect information games Artificial intelligence Regret minimization Reinforcement learning Deep reinforcement learning Unsafe search |
status_str | acceptedVersion |
title | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
title_full | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
title_fullStr | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
title_full_unstemmed | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
title_short | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
title_sort | Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático |
topic | Teoría de juegos computacional Juegos de información imperfecta Inteligencia artificial Minimización del arrepentimiento Aprendizaje por Refuerzo Profundo Búsqueda Insegura Truco Computational game theory Imperfect information games Artificial intelligence Regret minimization Reinforcement learning Deep reinforcement learning Unsafe search |
url | https://hdl.handle.net/20.500.12008/39789 |