Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático

Filevich, Juan Pablo

Supervisor(es): Cancela Bosi, Héctor

Resumen:

El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria.


In this research we try to approximate Nash equilibria in Uruguayan Truco: a positive-sum and imperfect information card game for its 2, 4 and 6 player variants; being this a PPDA-complete problem. We adapt and evaluate several agents based on modern Computational Game Theory as well as modern Deep Reinforcement Learning (DRL): from Counterfactual Regret Minimization (CFR) and its main variants to Deep Monte Carlo (DMC). We formulate and prove a theorem which states that every game of Truco is set to finish in 2n − 1 hands at most, where n is the agreed maximum score and use this result to introduce T1K22 : a dataset containing 79,000 random hands of uruguayan Truco. We then use this dataset for evaluation tasks on three baselines: a random walker, a deterministic agent and the author himself. After 2 weeks of training, starting from scratch and without human knowledge, our Monte Carlo based agents defeated every baseline achieving a win rate (WR) of approximately 91 %, 70 % and 59 % respectively. We also introduce the D-Index: a Truco-specific gameplay metric for evaluation purposes. Finally, we develop and evaluate an unsafe search module based on concurrent Monte Carlo rollouts based upon the previous blueprints. Under this technique, some agents are able to outperform the best agents developed in the first part of this research but now using strategies 99.4 % smaller.


Detalles Bibliográficos
2023
Teoría de juegos computacional
Juegos de información imperfecta
Inteligencia artificial
Minimización del arrepentimiento
Aprendizaje por Refuerzo Profundo
Búsqueda Insegura
Truco
Computational game theory
Imperfect information games
Artificial intelligence
Regret minimization
Reinforcement learning
Deep reinforcement learning
Unsafe search
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/39789
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
_version_ 1807523230106255360
author Filevich, Juan Pablo
author_facet Filevich, Juan Pablo
author_role author
bitstream.checksum.fl_str_mv 6429389a7df7277b72b7924fdc7d47a9
a006180e3f5b2ad0b88185d14284c0e0
1df05be915d5c44b48b8b2e7a082b91a
1996b8461bc290aef6a27d78c67b6b52
42d014023b037fe40fafea52f00a9968
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
bitstream.url.fl_str_mv http://localhost:8080/xmlui/bitstream/20.500.12008/39789/5/license.txt
http://localhost:8080/xmlui/bitstream/20.500.12008/39789/2/license_url
http://localhost:8080/xmlui/bitstream/20.500.12008/39789/3/license_text
http://localhost:8080/xmlui/bitstream/20.500.12008/39789/4/license_rdf
http://localhost:8080/xmlui/bitstream/20.500.12008/39789/1/Fi23.pdf
collection COLIBRI
dc.contributor.filiacion.none.fl_str_mv Filevich Juan Pablo, Universidad de la República (Uruguay). Facultad de Ingeniería
dc.creator.advisor.none.fl_str_mv Cancela Bosi, Héctor
dc.creator.none.fl_str_mv Filevich, Juan Pablo
dc.date.accessioned.none.fl_str_mv 2023-09-05T12:32:01Z
dc.date.available.none.fl_str_mv 2023-09-05T12:32:01Z
dc.date.issued.none.fl_str_mv 2023
dc.description.abstract.none.fl_txt_mv El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria.
In this research we try to approximate Nash equilibria in Uruguayan Truco: a positive-sum and imperfect information card game for its 2, 4 and 6 player variants; being this a PPDA-complete problem. We adapt and evaluate several agents based on modern Computational Game Theory as well as modern Deep Reinforcement Learning (DRL): from Counterfactual Regret Minimization (CFR) and its main variants to Deep Monte Carlo (DMC). We formulate and prove a theorem which states that every game of Truco is set to finish in 2n − 1 hands at most, where n is the agreed maximum score and use this result to introduce T1K22 : a dataset containing 79,000 random hands of uruguayan Truco. We then use this dataset for evaluation tasks on three baselines: a random walker, a deterministic agent and the author himself. After 2 weeks of training, starting from scratch and without human knowledge, our Monte Carlo based agents defeated every baseline achieving a win rate (WR) of approximately 91 %, 70 % and 59 % respectively. We also introduce the D-Index: a Truco-specific gameplay metric for evaluation purposes. Finally, we develop and evaluate an unsafe search module based on concurrent Monte Carlo rollouts based upon the previous blueprints. Under this technique, some agents are able to outperform the best agents developed in the first part of this research but now using strategies 99.4 % smaller.
dc.format.extent.es.fl_str_mv 162 p.
dc.format.mimetype.es.fl_str_mv application/pdf
dc.identifier.citation.es.fl_str_mv Filevich, J. Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023.
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12008/39789
dc.language.iso.none.fl_str_mv es
spa
dc.publisher.es.fl_str_mv Udelar.FI
dc.rights.license.none.fl_str_mv Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:COLIBRI
instname:Universidad de la República
instacron:Universidad de la República
dc.subject.es.fl_str_mv Teoría de juegos computacional
Juegos de información imperfecta
Inteligencia artificial
Minimización del arrepentimiento
Aprendizaje por Refuerzo Profundo
Búsqueda Insegura
Truco
Computational game theory
Imperfect information games
Artificial intelligence
Regret minimization
Reinforcement learning
Deep reinforcement learning
Unsafe search
dc.title.none.fl_str_mv Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
dc.type.es.fl_str_mv Tesis de grado
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
description El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria.
eu_rights_str_mv openAccess
format bachelorThesis
id COLIBRI_dc0bf1f87a77eecedc42fdb82f59910f
identifier_str_mv Filevich, J. Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023.
instacron_str Universidad de la República
institution Universidad de la República
instname_str Universidad de la República
language spa
language_invalid_str_mv es
network_acronym_str COLIBRI
network_name_str COLIBRI
oai_identifier_str oai:colibri.udelar.edu.uy:20.500.12008/39789
publishDate 2023
reponame_str COLIBRI
repository.mail.fl_str_mv mabel.seroubian@seciu.edu.uy
repository.name.fl_str_mv COLIBRI - Universidad de la República
repository_id_str 4771
rights_invalid_str_mv Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
spelling Filevich Juan Pablo, Universidad de la República (Uruguay). Facultad de Ingeniería2023-09-05T12:32:01Z2023-09-05T12:32:01Z2023Filevich, J. Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023.https://hdl.handle.net/20.500.12008/39789El objetivo de esta investigación fue el de aproximar un equilibrio de Nash en el Truco uruguayo: un juego de cartas de suma positiva e información imperfecta de 2, 4 y hasta 6 jugadores; siendo este un problema PPDA-completo. Se implementó una serie de agentes basados tanto en la Teoría de Juegos Computacional moderna como en el Aprendizaje por Refuerzo Profundo: desde Counterfactual Regret Minimization (CFR) y sus variantes más populares hasta Deep Monte Carlo (DMC). Se formuló y demostró un teorema el cual asegura que toda partida de Truco se compone de un máximo de 2n − 1 rondas como máximo, donde n es el puntaje de la partida y se empleó este resultado para introducir el dataset de evaluación T1K22. Este último se compone de 79.000 rondas aleatorias de Truco uruguayo y fue usado en tareas de evaluación en conjunto con las tres líneas bases propuestas: un caminante aleatorio, un agente determinista y el autor de este proyecto de grado. También se introdujo el índice-D: una métrica alternativa de evaluación, específica para el Truco uruguayo. Luego de 2 semanas de entrenamiento y partiendo desde cero, los agentes basados en métodos de Monte Carlo fueron capaces de alcanzar un win rate (WR) superior al 91 %, 70 % y 59 % para cada línea base. Finalmente, se implementó y evaluó un módulo de búsqueda insegura basado en simulaciones Monte Carlo concurrentes en base a las estrategias estáticas previamente obtenidas. Bajo esta técnica, los agentes que emplean búsqueda insegura fueron capaces de superar a los agentes más robustos obtenidos en la etapa anterior, pero ahora utilizando 99.4 % menos espacio en disco y memoria.In this research we try to approximate Nash equilibria in Uruguayan Truco: a positive-sum and imperfect information card game for its 2, 4 and 6 player variants; being this a PPDA-complete problem. We adapt and evaluate several agents based on modern Computational Game Theory as well as modern Deep Reinforcement Learning (DRL): from Counterfactual Regret Minimization (CFR) and its main variants to Deep Monte Carlo (DMC). We formulate and prove a theorem which states that every game of Truco is set to finish in 2n − 1 hands at most, where n is the agreed maximum score and use this result to introduce T1K22 : a dataset containing 79,000 random hands of uruguayan Truco. We then use this dataset for evaluation tasks on three baselines: a random walker, a deterministic agent and the author himself. After 2 weeks of training, starting from scratch and without human knowledge, our Monte Carlo based agents defeated every baseline achieving a win rate (WR) of approximately 91 %, 70 % and 59 % respectively. We also introduce the D-Index: a Truco-specific gameplay metric for evaluation purposes. Finally, we develop and evaluate an unsafe search module based on concurrent Monte Carlo rollouts based upon the previous blueprints. Under this technique, some agents are able to outperform the best agents developed in the first part of this research but now using strategies 99.4 % smaller.Submitted by Cabrera Gabriela (gfcabrerarossi@gmail.com) on 2023-09-01T15:25:30Z No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) Fi23.pdf: 26006328 bytes, checksum: 42d014023b037fe40fafea52f00a9968 (MD5)Approved for entry into archive by Machado Jimena (jmachado@fing.edu.uy) on 2023-09-04T18:43:52Z (GMT) No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) Fi23.pdf: 26006328 bytes, checksum: 42d014023b037fe40fafea52f00a9968 (MD5)Made available in DSpace by Luna Fabiana (fabiana.luna@seciu.edu.uy) on 2023-09-05T12:32:01Z (GMT). No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) Fi23.pdf: 26006328 bytes, checksum: 42d014023b037fe40fafea52f00a9968 (MD5) Previous issue date: 2023162 p.application/pdfesspaUdelar.FILas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)info:eu-repo/semantics/openAccessLicencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)Teoría de juegos computacionalJuegos de información imperfectaInteligencia artificialMinimización del arrepentimientoAprendizaje por Refuerzo ProfundoBúsqueda InseguraTrucoComputational game theoryImperfect information gamesArtificial intelligenceRegret minimizationReinforcement learningDeep reinforcement learningUnsafe searchAproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automáticoTesis de gradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionreponame:COLIBRIinstname:Universidad de la Repúblicainstacron:Universidad de la RepúblicaFilevich, Juan PabloCancela Bosi, HéctorUniversidad de la República (Uruguay). Facultad de IngenieríaIngeniero en ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-84267http://localhost:8080/xmlui/bitstream/20.500.12008/39789/5/license.txt6429389a7df7277b72b7924fdc7d47a9MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-850http://localhost:8080/xmlui/bitstream/20.500.12008/39789/2/license_urla006180e3f5b2ad0b88185d14284c0e0MD52license_textlicense_texttext/html; charset=utf-838767http://localhost:8080/xmlui/bitstream/20.500.12008/39789/3/license_text1df05be915d5c44b48b8b2e7a082b91aMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-823149http://localhost:8080/xmlui/bitstream/20.500.12008/39789/4/license_rdf1996b8461bc290aef6a27d78c67b6b52MD54ORIGINALFi23.pdfFi23.pdfapplication/pdf26006328http://localhost:8080/xmlui/bitstream/20.500.12008/39789/1/Fi23.pdf42d014023b037fe40fafea52f00a9968MD5120.500.12008/397892024-04-12 14:06:40.568oai:colibri.udelar.edu.uy:20.500.12008/39789VGVybWlub3MgeSBjb25kaWNpb25lcyByZWxhdGl2YXMgYWwgZGVwb3NpdG8gZGUgb2JyYXMKCgpMYXMgb2JyYXMgZGVwb3NpdGFkYXMgZW4gZWwgUmVwb3NpdG9yaW8gc2UgcmlnZW4gcG9yIGxhIE9yZGVuYW56YSBkZSBsb3MgRGVyZWNob3MgZGUgbGEgUHJvcGllZGFkIEludGVsZWN0dWFsICBkZSBsYSBVbml2ZXJzaWRhZCBEZSBMYSBSZXDDumJsaWNhLiAoUmVzLiBOwrogOTEgZGUgQy5ELkMuIGRlIDgvSUlJLzE5OTQg4oCTIEQuTy4gNy9JVi8xOTk0KSB5ICBwb3IgbGEgT3JkZW5hbnphIGRlbCBSZXBvc2l0b3JpbyBBYmllcnRvIGRlIGxhIFVuaXZlcnNpZGFkIGRlIGxhIFJlcMO6YmxpY2EgKFJlcy4gTsK6IDE2IGRlIEMuRC5DLiBkZSAwNy8xMC8yMDE0KS4gCgpBY2VwdGFuZG8gZWwgYXV0b3IgZXN0b3MgdMOpcm1pbm9zIHkgY29uZGljaW9uZXMgZGUgZGVww7NzaXRvIGVuIENPTElCUkksIGxhIFVuaXZlcnNpZGFkIGRlIFJlcMO6YmxpY2EgcHJvY2VkZXLDoSBhOiAgCgphKSBhcmNoaXZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBsYSBvYnJhIGVuIGxvcyBzZXJ2aWRvcmVzIGRlIGxhIFVuaXZlcnNpZGFkIGEgbG9zIGVmZWN0b3MgZGUgZ2FyYW50aXphciBhY2Nlc28sIHNlZ3VyaWRhZCB5IHByZXNlcnZhY2nDs24KYikgY29udmVydGlyIGxhIG9icmEgYSBvdHJvcyBmb3JtYXRvcyBzaSBmdWVyYSBuZWNlc2FyaW8gIHBhcmEgZmFjaWxpdGFyIHN1IHByZXNlcnZhY2nDs24geSBhY2Nlc2liaWxpZGFkIHNpbiBhbHRlcmFyIHN1IGNvbnRlbmlkby4KYykgcmVhbGl6YXIgbGEgY29tdW5pY2FjacOzbiBww7pibGljYSB5IGRpc3BvbmVyIGVsIGFjY2VzbyBsaWJyZSB5IGdyYXR1aXRvIGEgdHJhdsOpcyBkZSBJbnRlcm5ldCBtZWRpYW50ZSBsYSBwdWJsaWNhY2nDs24gZGUgbGEgb2JyYSBiYWpvIGxhIGxpY2VuY2lhIENyZWF0aXZlIENvbW1vbnMgc2VsZWNjaW9uYWRhIHBvciBlbCBwcm9waW8gYXV0b3IuCgoKRW4gY2FzbyBxdWUgZWwgYXV0b3IgaGF5YSBkaWZ1bmRpZG8geSBkYWRvIGEgcHVibGljaWRhZCBhIGxhIG9icmEgZW4gZm9ybWEgcHJldmlhLCAgcG9kcsOhIHNvbGljaXRhciB1biBwZXLDrW9kbyBkZSBlbWJhcmdvIHNvYnJlIGxhIGRpc3BvbmliaWxpZGFkIHDDumJsaWNhIGRlIGxhIG1pc21hLCBlbCBjdWFsIGNvbWVuemFyw6EgYSBwYXJ0aXIgZGUgbGEgYWNlcHRhY2nDs24gZGUgZXN0ZSBkb2N1bWVudG8geSBoYXN0YSBsYSBmZWNoYSBxdWUgaW5kaXF1ZSAuCgpFbCBhdXRvciBhc2VndXJhIHF1ZSBsYSBvYnJhIG5vIGluZnJpZ2UgbmluZ8O6biBkZXJlY2hvIHNvYnJlIHRlcmNlcm9zLCB5YSBzZWEgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsIG8gY3VhbHF1aWVyIG90cm8uCgpFbCBhdXRvciBnYXJhbnRpemEgcXVlIHNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCAgaGEgb2J0ZW5pZG8gZWwgcGVybWlzbyBkZWwgcHJvcGlldGFyaW8gZGUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCB5IHF1ZSBlc2UgbWF0ZXJpYWwgY3V5b3MgZGVyZWNob3Mgc29uIGRlIHRlcmNlcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIHkgcmVjb25vY2lkbyBlbiBlbCB0ZXh0byBvIGNvbnRlbmlkbyBkZWwgZG9jdW1lbnRvIGRlcG9zaXRhZG8gZW4gZWwgUmVwb3NpdG9yaW8uCgpFbiBvYnJhcyBkZSBhdXRvcsOtYSBtw7psdGlwbGUgL3NlIHByZXN1bWUvIHF1ZSBlbCBhdXRvciBkZXBvc2l0YW50ZSBkZWNsYXJhIHF1ZSBoYSByZWNhYmFkbyBlbCBjb25zZW50aW1pZW50byBkZSB0b2RvcyBsb3MgYXV0b3JlcyBwYXJhIHB1YmxpY2FybGEgZW4gZWwgUmVwb3NpdG9yaW8sIHNpZW5kbyDDqXN0ZSBlbCDDum5pY28gcmVzcG9uc2FibGUgZnJlbnRlIGEgY3VhbHF1aWVyIHRpcG8gZGUgcmVjbGFtYWNpw7NuIGRlIGxvcyBvdHJvcyBjb2F1dG9yZXMuCgpFbCBhdXRvciBzZXLDoSByZXNwb25zYWJsZSBkZWwgY29udGVuaWRvIGRlIGxvcyBkb2N1bWVudG9zIHF1ZSBkZXBvc2l0YS4gTGEgVURFTEFSIG5vIHNlcsOhIHJlc3BvbnNhYmxlIHBvciBsYXMgZXZlbnR1YWxlcyB2aW9sYWNpb25lcyBhbCBkZXJlY2hvIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCBlbiBxdWUgcHVlZGEgaW5jdXJyaXIgZWwgYXV0b3IuCgpBbnRlIGN1YWxxdWllciBkZW51bmNpYSBkZSB2aW9sYWNpw7NuIGRlIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCwgbGEgVURFTEFSICBhZG9wdGFyw6EgdG9kYXMgbGFzIG1lZGlkYXMgbmVjZXNhcmlhcyBwYXJhIGV2aXRhciBsYSBjb250aW51YWNpw7NuIGRlIGRpY2hhIGluZnJhY2Npw7NuLCBsYXMgcXVlIHBvZHLDoW4gaW5jbHVpciBlbCByZXRpcm8gZGVsIGFjY2VzbyBhIGxvcyBjb250ZW5pZG9zIHkvbyBtZXRhZGF0b3MgZGVsIGRvY3VtZW50byByZXNwZWN0aXZvLgoKTGEgb2JyYSBzZSBwb25kcsOhIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBhIHRyYXbDqXMgZGUgbGFzIGxpY2VuY2lhcyBDcmVhdGl2ZSBDb21tb25zLCBlbCBhdXRvciBwb2Ryw6Egc2VsZWNjaW9uYXIgdW5hIGRlIGxhcyA2IGxpY2VuY2lhcyBkaXNwb25pYmxlczoKCgpBdHJpYnVjacOzbiAoQ0MgLSBCeSk6IFBlcm1pdGUgdXNhciBsYSBvYnJhIHkgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBzaWVtcHJlIHF1ZSBzZSByZWNvbm96Y2EgYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgQ29tcGFydGlyIElndWFsIChDQyAtIEJ5LVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgaW5jbHVzbyBjb24gZmluZXMgY29tZXJjaWFsZXMsIHBlcm8gbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIGRlYmUgaGFjZXJzZSBtZWRpYW50ZSB1bmEgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIChDQyAtIEJ5LU5DKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzLCByZWNvbm9jaWVuZG8gYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgU2luIERlcml2YWRhcyAoQ0MgLSBCeS1ORCk6IFBlcm1pdGUgZWwgdXNvIGRlIGxhIG9icmEsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBwZXJvIG5vIHNlIHBlcm1pdGUgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGRlYmllbmRvIHJlY29ub2NlciBhbCBhdXRvci4KCkF0cmlidWNpw7NuIOKAkyBObyBDb21lcmNpYWwg4oCTIENvbXBhcnRpciBJZ3VhbCAoQ0Mg4oCTIEJ5LU5DLVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzIHkgbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIHNlIGhhZ2EgbWVkaWFudGUgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIOKAkyBTaW4gRGVyaXZhZGFzIChDQyAtIEJ5LU5DLU5EKTogUGVybWl0ZSB1c2FyIGxhIG9icmEsIHBlcm8gbm8gc2UgcGVybWl0ZSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcyB5IG5vIHNlIHBlcm1pdGUgdXNvIGNvbiBmaW5lcyBjb21lcmNpYWxlcywgZGViaWVuZG8gcmVjb25vY2VyIGFsIGF1dG9yLgoKTG9zIHVzb3MgcHJldmlzdG9zIGVuIGxhcyBsaWNlbmNpYXMgaW5jbHV5ZW4gbGEgZW5hamVuYWNpw7NuLCByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuLCBwdWJsaWNhY2nDs24sIGRpc3RyaWJ1Y2nDs24geSBwdWVzdGEgYSBkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvLiBMYSBjcmVhY2nDs24gZGUgb2JyYXMgZGVyaXZhZGFzIGluY2x1eWUgbGEgYWRhcHRhY2nDs24sIHRyYWR1Y2Npw7NuIHkgZWwgcmVtaXguCgpDdWFuZG8gc2Ugc2VsZWNjaW9uZSB1bmEgbGljZW5jaWEgcXVlIGhhYmlsaXRlIHVzb3MgY29tZXJjaWFsZXMsIGVsIGRlcMOzc2l0byBkZWJlcsOhIHNlciBhY29tcGHDsWFkbyBkZWwgYXZhbCBkZWwgamVyYXJjYSBtw6F4aW1vIGRlbCBTZXJ2aWNpbyBjb3JyZXNwb25kaWVudGUuCg==Universidadhttps://udelar.edu.uy/https://www.colibri.udelar.edu.uy/oai/requestmabel.seroubian@seciu.edu.uyUruguayopendoar:47712024-07-25T14:46:29.105062COLIBRI - Universidad de la Repúblicafalse
spellingShingle Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
Filevich, Juan Pablo
Teoría de juegos computacional
Juegos de información imperfecta
Inteligencia artificial
Minimización del arrepentimiento
Aprendizaje por Refuerzo Profundo
Búsqueda Insegura
Truco
Computational game theory
Imperfect information games
Artificial intelligence
Regret minimization
Reinforcement learning
Deep reinforcement learning
Unsafe search
status_str acceptedVersion
title Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
title_full Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
title_fullStr Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
title_full_unstemmed Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
title_short Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
title_sort Aproximación de equilibrios de Nash en juegos de información imperfecta y suma positiva mediante métodos de Monte Carlo y aprendizaje automático
topic Teoría de juegos computacional
Juegos de información imperfecta
Inteligencia artificial
Minimización del arrepentimiento
Aprendizaje por Refuerzo Profundo
Búsqueda Insegura
Truco
Computational game theory
Imperfect information games
Artificial intelligence
Regret minimization
Reinforcement learning
Deep reinforcement learning
Unsafe search
url https://hdl.handle.net/20.500.12008/39789