Identificación automática de tópicos para el Observatorio de Medios del Uruguay

Carballal, Francisco - Mauriz, Juan

Supervisor(es): Moncecchi, Guillermo - Prada, Juan José

Resumen:

Los medios de comunicación tienen un gran impacto sobre la determinación de los temas que la gente debate diariamente y cómo los interpreta. Es pertinente que se realicen investigaciones sistemáticas sobre la cobertura realizada por los medios de comunicación sobre diferentes temas y las prácticas discursivas utilizadas. Para cumplir este fin surge el Observatorio de Medios del Uruguay (OMU), como un proyecto llevado adelante por la Facultad de Información y Comunicación con apoyo de la Facultad de Ingeniería, ambas de la Universidad de la República. El presente trabajo se enmarca en el OMU, con el objetivo de aportar una solución automatizada a alguna de las tareas involucradas en el referido proyecto. En base a reuniones realizadas con su equipo, se decidió que el problema a resolver sea la detección automática de temas. Dentro del Procesamiento de Lenguaje Natural, la detección automática de temas se denomina Modelado de Tópicos. Es un problema de aprendizaje automático no supervisado, en el que se debe determinar cuáles son los tópicos, en lugar de disponer de categorías predefinidas y limitarse a clasificar noticias. La metodología más utilizada para abordarlo es Latent Dirichlet Allocation (LDA). En este trabajo se utilizó una variación reciente, denominada embedded topic modeling (ETM), que enriquece LDA con el uso de word embeddings. Se implementó en python una aplicación web que permite entrenar y utilizar modelos de ETM. Se puede inferir los tópicos presentes en un corpus de noticias y luego clasificar automáticamente otras noticias que se ingresen desde la interfaz web. Se evaluaron modelos de ETM utilizando un corpus de 20.000 noticias pertenecientes a La Diaria, mediante experimentos cualitativos y cuantitativos. Cualitativamente, los resultados son satisfactorios y se observan similitudes con lo reportado por los autores de la metodología, particularmente en la robustez frente a palabras que no agregan significado o contenido específico (como artículos, preposiciones y algunas palabras comunes). Cuantitativamente, utilizando métricas de desempeño se pudo determinar la cantidad óptima de tópicos para el corpus.


Detalles Bibliográficos
2022
Procesamiento de lenguaje natural
Aprendizaje automático
Modelado de tópicos
Latent Dirichlet Allocation
Word embeddings
Análisis de noticias
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/35146
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
_version_ 1807523228901441536
author Carballal, Francisco
author2 Mauriz, Juan
author2_role author
author_facet Carballal, Francisco
Mauriz, Juan
author_role author
bitstream.checksum.fl_str_mv 6429389a7df7277b72b7924fdc7d47a9
a006180e3f5b2ad0b88185d14284c0e0
36c32e9c6da50e6d55578c16944ef7f6
1996b8461bc290aef6a27d78c67b6b52
5ec97a1733e99d03e14069f4cbf154cf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
bitstream.url.fl_str_mv http://localhost:8080/xmlui/bitstream/20.500.12008/35146/5/license.txt
http://localhost:8080/xmlui/bitstream/20.500.12008/35146/2/license_url
http://localhost:8080/xmlui/bitstream/20.500.12008/35146/3/license_text
http://localhost:8080/xmlui/bitstream/20.500.12008/35146/4/license_rdf
http://localhost:8080/xmlui/bitstream/20.500.12008/35146/1/CM22.pdf
collection COLIBRI
dc.contributor.filiacion.none.fl_str_mv Carballal Francisco, Universidad de la República (Uruguay). Facultad de Ingeniería
Mauriz Juan, Universidad de la República (Uruguay). Facultad de Ingeniería
dc.coverage.spatial.es.fl_str_mv Uruguay.
dc.creator.advisor.none.fl_str_mv Moncecchi, Guillermo
Prada, Juan José
dc.creator.none.fl_str_mv Carballal, Francisco
Mauriz, Juan
dc.date.accessioned.none.fl_str_mv 2022-12-05T16:06:10Z
dc.date.available.none.fl_str_mv 2022-12-05T16:06:10Z
dc.date.issued.none.fl_str_mv 2022
dc.description.abstract.none.fl_txt_mv Los medios de comunicación tienen un gran impacto sobre la determinación de los temas que la gente debate diariamente y cómo los interpreta. Es pertinente que se realicen investigaciones sistemáticas sobre la cobertura realizada por los medios de comunicación sobre diferentes temas y las prácticas discursivas utilizadas. Para cumplir este fin surge el Observatorio de Medios del Uruguay (OMU), como un proyecto llevado adelante por la Facultad de Información y Comunicación con apoyo de la Facultad de Ingeniería, ambas de la Universidad de la República. El presente trabajo se enmarca en el OMU, con el objetivo de aportar una solución automatizada a alguna de las tareas involucradas en el referido proyecto. En base a reuniones realizadas con su equipo, se decidió que el problema a resolver sea la detección automática de temas. Dentro del Procesamiento de Lenguaje Natural, la detección automática de temas se denomina Modelado de Tópicos. Es un problema de aprendizaje automático no supervisado, en el que se debe determinar cuáles son los tópicos, en lugar de disponer de categorías predefinidas y limitarse a clasificar noticias. La metodología más utilizada para abordarlo es Latent Dirichlet Allocation (LDA). En este trabajo se utilizó una variación reciente, denominada embedded topic modeling (ETM), que enriquece LDA con el uso de word embeddings. Se implementó en python una aplicación web que permite entrenar y utilizar modelos de ETM. Se puede inferir los tópicos presentes en un corpus de noticias y luego clasificar automáticamente otras noticias que se ingresen desde la interfaz web. Se evaluaron modelos de ETM utilizando un corpus de 20.000 noticias pertenecientes a La Diaria, mediante experimentos cualitativos y cuantitativos. Cualitativamente, los resultados son satisfactorios y se observan similitudes con lo reportado por los autores de la metodología, particularmente en la robustez frente a palabras que no agregan significado o contenido específico (como artículos, preposiciones y algunas palabras comunes). Cuantitativamente, utilizando métricas de desempeño se pudo determinar la cantidad óptima de tópicos para el corpus.
dc.format.extent.es.fl_str_mv 52 p.
dc.format.mimetype.es.fl_str_mv application/pdf
dc.identifier.citation.es.fl_str_mv Carballal, F. y Mauriz, J. Identificación automática de tópicos para el Observatorio de Medios del Uruguay [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2022.
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12008/35146
dc.language.iso.none.fl_str_mv es
spa
dc.publisher.es.fl_str_mv Udelar.FI
dc.rights.license.none.fl_str_mv Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:COLIBRI
instname:Universidad de la República
instacron:Universidad de la República
dc.subject.es.fl_str_mv Procesamiento de lenguaje natural
Aprendizaje automático
Modelado de tópicos
Latent Dirichlet Allocation
Word embeddings
Análisis de noticias
dc.title.none.fl_str_mv Identificación automática de tópicos para el Observatorio de Medios del Uruguay
dc.type.es.fl_str_mv Tesis de grado
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
description Los medios de comunicación tienen un gran impacto sobre la determinación de los temas que la gente debate diariamente y cómo los interpreta. Es pertinente que se realicen investigaciones sistemáticas sobre la cobertura realizada por los medios de comunicación sobre diferentes temas y las prácticas discursivas utilizadas. Para cumplir este fin surge el Observatorio de Medios del Uruguay (OMU), como un proyecto llevado adelante por la Facultad de Información y Comunicación con apoyo de la Facultad de Ingeniería, ambas de la Universidad de la República. El presente trabajo se enmarca en el OMU, con el objetivo de aportar una solución automatizada a alguna de las tareas involucradas en el referido proyecto. En base a reuniones realizadas con su equipo, se decidió que el problema a resolver sea la detección automática de temas. Dentro del Procesamiento de Lenguaje Natural, la detección automática de temas se denomina Modelado de Tópicos. Es un problema de aprendizaje automático no supervisado, en el que se debe determinar cuáles son los tópicos, en lugar de disponer de categorías predefinidas y limitarse a clasificar noticias. La metodología más utilizada para abordarlo es Latent Dirichlet Allocation (LDA). En este trabajo se utilizó una variación reciente, denominada embedded topic modeling (ETM), que enriquece LDA con el uso de word embeddings. Se implementó en python una aplicación web que permite entrenar y utilizar modelos de ETM. Se puede inferir los tópicos presentes en un corpus de noticias y luego clasificar automáticamente otras noticias que se ingresen desde la interfaz web. Se evaluaron modelos de ETM utilizando un corpus de 20.000 noticias pertenecientes a La Diaria, mediante experimentos cualitativos y cuantitativos. Cualitativamente, los resultados son satisfactorios y se observan similitudes con lo reportado por los autores de la metodología, particularmente en la robustez frente a palabras que no agregan significado o contenido específico (como artículos, preposiciones y algunas palabras comunes). Cuantitativamente, utilizando métricas de desempeño se pudo determinar la cantidad óptima de tópicos para el corpus.
eu_rights_str_mv openAccess
format bachelorThesis
id COLIBRI_d13d2d86b74118a564213d9412b5f695
identifier_str_mv Carballal, F. y Mauriz, J. Identificación automática de tópicos para el Observatorio de Medios del Uruguay [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2022.
instacron_str Universidad de la República
institution Universidad de la República
instname_str Universidad de la República
language spa
language_invalid_str_mv es
network_acronym_str COLIBRI
network_name_str COLIBRI
oai_identifier_str oai:colibri.udelar.edu.uy:20.500.12008/35146
publishDate 2022
reponame_str COLIBRI
repository.mail.fl_str_mv mabel.seroubian@seciu.edu.uy
repository.name.fl_str_mv COLIBRI - Universidad de la República
repository_id_str 4771
rights_invalid_str_mv Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
spelling Carballal Francisco, Universidad de la República (Uruguay). Facultad de IngenieríaMauriz Juan, Universidad de la República (Uruguay). Facultad de IngenieríaUruguay.2022-12-05T16:06:10Z2022-12-05T16:06:10Z2022Carballal, F. y Mauriz, J. Identificación automática de tópicos para el Observatorio de Medios del Uruguay [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2022.https://hdl.handle.net/20.500.12008/35146Los medios de comunicación tienen un gran impacto sobre la determinación de los temas que la gente debate diariamente y cómo los interpreta. Es pertinente que se realicen investigaciones sistemáticas sobre la cobertura realizada por los medios de comunicación sobre diferentes temas y las prácticas discursivas utilizadas. Para cumplir este fin surge el Observatorio de Medios del Uruguay (OMU), como un proyecto llevado adelante por la Facultad de Información y Comunicación con apoyo de la Facultad de Ingeniería, ambas de la Universidad de la República. El presente trabajo se enmarca en el OMU, con el objetivo de aportar una solución automatizada a alguna de las tareas involucradas en el referido proyecto. En base a reuniones realizadas con su equipo, se decidió que el problema a resolver sea la detección automática de temas. Dentro del Procesamiento de Lenguaje Natural, la detección automática de temas se denomina Modelado de Tópicos. Es un problema de aprendizaje automático no supervisado, en el que se debe determinar cuáles son los tópicos, en lugar de disponer de categorías predefinidas y limitarse a clasificar noticias. La metodología más utilizada para abordarlo es Latent Dirichlet Allocation (LDA). En este trabajo se utilizó una variación reciente, denominada embedded topic modeling (ETM), que enriquece LDA con el uso de word embeddings. Se implementó en python una aplicación web que permite entrenar y utilizar modelos de ETM. Se puede inferir los tópicos presentes en un corpus de noticias y luego clasificar automáticamente otras noticias que se ingresen desde la interfaz web. Se evaluaron modelos de ETM utilizando un corpus de 20.000 noticias pertenecientes a La Diaria, mediante experimentos cualitativos y cuantitativos. Cualitativamente, los resultados son satisfactorios y se observan similitudes con lo reportado por los autores de la metodología, particularmente en la robustez frente a palabras que no agregan significado o contenido específico (como artículos, preposiciones y algunas palabras comunes). Cuantitativamente, utilizando métricas de desempeño se pudo determinar la cantidad óptima de tópicos para el corpus.Submitted by Cabrera Gabriela (gfcabrerarossi@gmail.com) on 2022-11-29T13:21:39Z No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) CM22.pdf: 2587034 bytes, checksum: 5ec97a1733e99d03e14069f4cbf154cf (MD5)Approved for entry into archive by Machado Jimena (jmachado@fing.edu.uy) on 2022-12-05T15:51:54Z (GMT) No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) CM22.pdf: 2587034 bytes, checksum: 5ec97a1733e99d03e14069f4cbf154cf (MD5)Made available in DSpace by Luna Fabiana (fabiana.luna@seciu.edu.uy) on 2022-12-05T16:06:10Z (GMT). No. of bitstreams: 2 license_rdf: 23149 bytes, checksum: 1996b8461bc290aef6a27d78c67b6b52 (MD5) CM22.pdf: 2587034 bytes, checksum: 5ec97a1733e99d03e14069f4cbf154cf (MD5) Previous issue date: 202252 p.application/pdfesspaUdelar.FILas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)info:eu-repo/semantics/openAccessLicencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)Procesamiento de lenguaje naturalAprendizaje automáticoModelado de tópicosLatent Dirichlet AllocationWord embeddingsAnálisis de noticiasIdentificación automática de tópicos para el Observatorio de Medios del UruguayTesis de gradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionreponame:COLIBRIinstname:Universidad de la Repúblicainstacron:Universidad de la RepúblicaCarballal, FranciscoMauriz, JuanMoncecchi, GuillermoPrada, Juan JoséUniversidad de la República (Uruguay). Facultad de IngenieríaIngeniero en ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-84267http://localhost:8080/xmlui/bitstream/20.500.12008/35146/5/license.txt6429389a7df7277b72b7924fdc7d47a9MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-850http://localhost:8080/xmlui/bitstream/20.500.12008/35146/2/license_urla006180e3f5b2ad0b88185d14284c0e0MD52license_textlicense_texttext/html; charset=utf-838616http://localhost:8080/xmlui/bitstream/20.500.12008/35146/3/license_text36c32e9c6da50e6d55578c16944ef7f6MD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-823149http://localhost:8080/xmlui/bitstream/20.500.12008/35146/4/license_rdf1996b8461bc290aef6a27d78c67b6b52MD54ORIGINALCM22.pdfCM22.pdfapplication/pdf2587034http://localhost:8080/xmlui/bitstream/20.500.12008/35146/1/CM22.pdf5ec97a1733e99d03e14069f4cbf154cfMD5120.500.12008/351462024-04-12 14:06:40.936oai:colibri.udelar.edu.uy:20.500.12008/35146VGVybWlub3MgeSBjb25kaWNpb25lcyByZWxhdGl2YXMgYWwgZGVwb3NpdG8gZGUgb2JyYXMKCgpMYXMgb2JyYXMgZGVwb3NpdGFkYXMgZW4gZWwgUmVwb3NpdG9yaW8gc2UgcmlnZW4gcG9yIGxhIE9yZGVuYW56YSBkZSBsb3MgRGVyZWNob3MgZGUgbGEgUHJvcGllZGFkIEludGVsZWN0dWFsICBkZSBsYSBVbml2ZXJzaWRhZCBEZSBMYSBSZXDDumJsaWNhLiAoUmVzLiBOwrogOTEgZGUgQy5ELkMuIGRlIDgvSUlJLzE5OTQg4oCTIEQuTy4gNy9JVi8xOTk0KSB5ICBwb3IgbGEgT3JkZW5hbnphIGRlbCBSZXBvc2l0b3JpbyBBYmllcnRvIGRlIGxhIFVuaXZlcnNpZGFkIGRlIGxhIFJlcMO6YmxpY2EgKFJlcy4gTsK6IDE2IGRlIEMuRC5DLiBkZSAwNy8xMC8yMDE0KS4gCgpBY2VwdGFuZG8gZWwgYXV0b3IgZXN0b3MgdMOpcm1pbm9zIHkgY29uZGljaW9uZXMgZGUgZGVww7NzaXRvIGVuIENPTElCUkksIGxhIFVuaXZlcnNpZGFkIGRlIFJlcMO6YmxpY2EgcHJvY2VkZXLDoSBhOiAgCgphKSBhcmNoaXZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBsYSBvYnJhIGVuIGxvcyBzZXJ2aWRvcmVzIGRlIGxhIFVuaXZlcnNpZGFkIGEgbG9zIGVmZWN0b3MgZGUgZ2FyYW50aXphciBhY2Nlc28sIHNlZ3VyaWRhZCB5IHByZXNlcnZhY2nDs24KYikgY29udmVydGlyIGxhIG9icmEgYSBvdHJvcyBmb3JtYXRvcyBzaSBmdWVyYSBuZWNlc2FyaW8gIHBhcmEgZmFjaWxpdGFyIHN1IHByZXNlcnZhY2nDs24geSBhY2Nlc2liaWxpZGFkIHNpbiBhbHRlcmFyIHN1IGNvbnRlbmlkby4KYykgcmVhbGl6YXIgbGEgY29tdW5pY2FjacOzbiBww7pibGljYSB5IGRpc3BvbmVyIGVsIGFjY2VzbyBsaWJyZSB5IGdyYXR1aXRvIGEgdHJhdsOpcyBkZSBJbnRlcm5ldCBtZWRpYW50ZSBsYSBwdWJsaWNhY2nDs24gZGUgbGEgb2JyYSBiYWpvIGxhIGxpY2VuY2lhIENyZWF0aXZlIENvbW1vbnMgc2VsZWNjaW9uYWRhIHBvciBlbCBwcm9waW8gYXV0b3IuCgoKRW4gY2FzbyBxdWUgZWwgYXV0b3IgaGF5YSBkaWZ1bmRpZG8geSBkYWRvIGEgcHVibGljaWRhZCBhIGxhIG9icmEgZW4gZm9ybWEgcHJldmlhLCAgcG9kcsOhIHNvbGljaXRhciB1biBwZXLDrW9kbyBkZSBlbWJhcmdvIHNvYnJlIGxhIGRpc3BvbmliaWxpZGFkIHDDumJsaWNhIGRlIGxhIG1pc21hLCBlbCBjdWFsIGNvbWVuemFyw6EgYSBwYXJ0aXIgZGUgbGEgYWNlcHRhY2nDs24gZGUgZXN0ZSBkb2N1bWVudG8geSBoYXN0YSBsYSBmZWNoYSBxdWUgaW5kaXF1ZSAuCgpFbCBhdXRvciBhc2VndXJhIHF1ZSBsYSBvYnJhIG5vIGluZnJpZ2UgbmluZ8O6biBkZXJlY2hvIHNvYnJlIHRlcmNlcm9zLCB5YSBzZWEgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsIG8gY3VhbHF1aWVyIG90cm8uCgpFbCBhdXRvciBnYXJhbnRpemEgcXVlIHNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCAgaGEgb2J0ZW5pZG8gZWwgcGVybWlzbyBkZWwgcHJvcGlldGFyaW8gZGUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCB5IHF1ZSBlc2UgbWF0ZXJpYWwgY3V5b3MgZGVyZWNob3Mgc29uIGRlIHRlcmNlcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIHkgcmVjb25vY2lkbyBlbiBlbCB0ZXh0byBvIGNvbnRlbmlkbyBkZWwgZG9jdW1lbnRvIGRlcG9zaXRhZG8gZW4gZWwgUmVwb3NpdG9yaW8uCgpFbiBvYnJhcyBkZSBhdXRvcsOtYSBtw7psdGlwbGUgL3NlIHByZXN1bWUvIHF1ZSBlbCBhdXRvciBkZXBvc2l0YW50ZSBkZWNsYXJhIHF1ZSBoYSByZWNhYmFkbyBlbCBjb25zZW50aW1pZW50byBkZSB0b2RvcyBsb3MgYXV0b3JlcyBwYXJhIHB1YmxpY2FybGEgZW4gZWwgUmVwb3NpdG9yaW8sIHNpZW5kbyDDqXN0ZSBlbCDDum5pY28gcmVzcG9uc2FibGUgZnJlbnRlIGEgY3VhbHF1aWVyIHRpcG8gZGUgcmVjbGFtYWNpw7NuIGRlIGxvcyBvdHJvcyBjb2F1dG9yZXMuCgpFbCBhdXRvciBzZXLDoSByZXNwb25zYWJsZSBkZWwgY29udGVuaWRvIGRlIGxvcyBkb2N1bWVudG9zIHF1ZSBkZXBvc2l0YS4gTGEgVURFTEFSIG5vIHNlcsOhIHJlc3BvbnNhYmxlIHBvciBsYXMgZXZlbnR1YWxlcyB2aW9sYWNpb25lcyBhbCBkZXJlY2hvIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCBlbiBxdWUgcHVlZGEgaW5jdXJyaXIgZWwgYXV0b3IuCgpBbnRlIGN1YWxxdWllciBkZW51bmNpYSBkZSB2aW9sYWNpw7NuIGRlIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbCwgbGEgVURFTEFSICBhZG9wdGFyw6EgdG9kYXMgbGFzIG1lZGlkYXMgbmVjZXNhcmlhcyBwYXJhIGV2aXRhciBsYSBjb250aW51YWNpw7NuIGRlIGRpY2hhIGluZnJhY2Npw7NuLCBsYXMgcXVlIHBvZHLDoW4gaW5jbHVpciBlbCByZXRpcm8gZGVsIGFjY2VzbyBhIGxvcyBjb250ZW5pZG9zIHkvbyBtZXRhZGF0b3MgZGVsIGRvY3VtZW50byByZXNwZWN0aXZvLgoKTGEgb2JyYSBzZSBwb25kcsOhIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBhIHRyYXbDqXMgZGUgbGFzIGxpY2VuY2lhcyBDcmVhdGl2ZSBDb21tb25zLCBlbCBhdXRvciBwb2Ryw6Egc2VsZWNjaW9uYXIgdW5hIGRlIGxhcyA2IGxpY2VuY2lhcyBkaXNwb25pYmxlczoKCgpBdHJpYnVjacOzbiAoQ0MgLSBCeSk6IFBlcm1pdGUgdXNhciBsYSBvYnJhIHkgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBzaWVtcHJlIHF1ZSBzZSByZWNvbm96Y2EgYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgQ29tcGFydGlyIElndWFsIChDQyAtIEJ5LVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgaW5jbHVzbyBjb24gZmluZXMgY29tZXJjaWFsZXMsIHBlcm8gbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIGRlYmUgaGFjZXJzZSBtZWRpYW50ZSB1bmEgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIChDQyAtIEJ5LU5DKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzLCByZWNvbm9jaWVuZG8gYWwgYXV0b3IuCgpBdHJpYnVjacOzbiDigJMgU2luIERlcml2YWRhcyAoQ0MgLSBCeS1ORCk6IFBlcm1pdGUgZWwgdXNvIGRlIGxhIG9icmEsIGluY2x1c28gY29uIGZpbmVzIGNvbWVyY2lhbGVzLCBwZXJvIG5vIHNlIHBlcm1pdGUgZ2VuZXJhciBvYnJhcyBkZXJpdmFkYXMsIGRlYmllbmRvIHJlY29ub2NlciBhbCBhdXRvci4KCkF0cmlidWNpw7NuIOKAkyBObyBDb21lcmNpYWwg4oCTIENvbXBhcnRpciBJZ3VhbCAoQ0Mg4oCTIEJ5LU5DLVNBKTogUGVybWl0ZSB1c2FyIGxhIG9icmEgeSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcywgc2llbXByZSB5IGN1YW5kbyBlc29zIHVzb3Mgbm8gdGVuZ2FuIGZpbmVzIGNvbWVyY2lhbGVzIHkgbGEgZGlzdHJpYnVjacOzbiBkZSBsYXMgb2JyYXMgZGVyaXZhZGFzIHNlIGhhZ2EgbWVkaWFudGUgbGljZW5jaWEgaWTDqW50aWNhIGEgbGEgZGUgbGEgb2JyYSBvcmlnaW5hbCwgcmVjb25vY2llbmRvIGEgbG9zIGF1dG9yZXMuCgpBdHJpYnVjacOzbiDigJMgTm8gQ29tZXJjaWFsIOKAkyBTaW4gRGVyaXZhZGFzIChDQyAtIEJ5LU5DLU5EKTogUGVybWl0ZSB1c2FyIGxhIG9icmEsIHBlcm8gbm8gc2UgcGVybWl0ZSBnZW5lcmFyIG9icmFzIGRlcml2YWRhcyB5IG5vIHNlIHBlcm1pdGUgdXNvIGNvbiBmaW5lcyBjb21lcmNpYWxlcywgZGViaWVuZG8gcmVjb25vY2VyIGFsIGF1dG9yLgoKTG9zIHVzb3MgcHJldmlzdG9zIGVuIGxhcyBsaWNlbmNpYXMgaW5jbHV5ZW4gbGEgZW5hamVuYWNpw7NuLCByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuLCBwdWJsaWNhY2nDs24sIGRpc3RyaWJ1Y2nDs24geSBwdWVzdGEgYSBkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvLiBMYSBjcmVhY2nDs24gZGUgb2JyYXMgZGVyaXZhZGFzIGluY2x1eWUgbGEgYWRhcHRhY2nDs24sIHRyYWR1Y2Npw7NuIHkgZWwgcmVtaXguCgpDdWFuZG8gc2Ugc2VsZWNjaW9uZSB1bmEgbGljZW5jaWEgcXVlIGhhYmlsaXRlIHVzb3MgY29tZXJjaWFsZXMsIGVsIGRlcMOzc2l0byBkZWJlcsOhIHNlciBhY29tcGHDsWFkbyBkZWwgYXZhbCBkZWwgamVyYXJjYSBtw6F4aW1vIGRlbCBTZXJ2aWNpbyBjb3JyZXNwb25kaWVudGUuCg==Universidadhttps://udelar.edu.uy/https://www.colibri.udelar.edu.uy/oai/requestmabel.seroubian@seciu.edu.uyUruguayopendoar:47712024-07-25T14:46:27.267690COLIBRI - Universidad de la Repúblicafalse
spellingShingle Identificación automática de tópicos para el Observatorio de Medios del Uruguay
Carballal, Francisco
Procesamiento de lenguaje natural
Aprendizaje automático
Modelado de tópicos
Latent Dirichlet Allocation
Word embeddings
Análisis de noticias
status_str acceptedVersion
title Identificación automática de tópicos para el Observatorio de Medios del Uruguay
title_full Identificación automática de tópicos para el Observatorio de Medios del Uruguay
title_fullStr Identificación automática de tópicos para el Observatorio de Medios del Uruguay
title_full_unstemmed Identificación automática de tópicos para el Observatorio de Medios del Uruguay
title_short Identificación automática de tópicos para el Observatorio de Medios del Uruguay
title_sort Identificación automática de tópicos para el Observatorio de Medios del Uruguay
topic Procesamiento de lenguaje natural
Aprendizaje automático
Modelado de tópicos
Latent Dirichlet Allocation
Word embeddings
Análisis de noticias
url https://hdl.handle.net/20.500.12008/35146