Resumen:: Aprendizaje profundo para la anonimización de textos legales. :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Aceptado

Aprendizaje profundo para la anonimización de textos legales.

Cruces, María Victoria - Ferraro, Nicolás

Supervisor(es): Garat, Diego

Resumen:

Las sentencias judiciales contienen datos sensibles sobre los actores involucrados que, dado su carácter público, deben ser anonimizadas para proteger la identidad de las personas. Hoy en día la anonimización de sentencias judiciales se hace de forma manual, proceso que es costoso y propenso a errores. En este contexto, se aplican técnicas de aprendizaje profundo con intención de automatizar el proceso. Para llevar esto a cabo, se trabaja sobre el corpus de sentencias de la Base de Jurisprudencia Nacional recopilado por Garat y Wonserver en “Towards De-identification of Legal Texts”, en donde las sentencias se encuentran anotadas con etiquetas que indican los participantes involucrados. Con el fin de poder diferenciarlos de otras personas como ministros, abogados, doctrinos y ubicaciones que llevan el nombre de personas, se agregan nuevas etiquetas para poder mejorar la capacidad de detección de participantes a anonimizar. Partiendo del conjunto, se implementan dos soluciones: un reconocedor de entidades nombradas basado en Transformers y como prueba de concepto, una red neuronal siamesa acompañada de clustering para vincular las entidades encontradas. El reconocedor alcanza una F1 de 95.3 % al identificar personas involucradas en los hechos de las sentencias (las de interés al anonimizar), representando una mejoría frente a soluciones previas del 3,54 %. En el caso de la red se obtiene un V-measure de 93.3 % y un ARI de 88.2 %, inferiores a resultados existentes.

Detalles Bibliográficos
Fecha de publicación:	2023
Temas:	Anonimización Sentencias Judiciales Reconocimiento de entidades Vinculación de entidades Resolución de coreferencias Transformers Redes siamesas Clusterización
Idioma	Español
Institución:	Universidad de la República
Repositorio:	COLIBRI
Enlace(s):	https://hdl.handle.net/20.500.12008/41686
Nivel de acceso:	Acceso abierto
Licencia:	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)

Resumen:
Sumario:	Las sentencias judiciales contienen datos sensibles sobre los actores involucrados que, dado su carácter público, deben ser anonimizadas para proteger la identidad de las personas. Hoy en día la anonimización de sentencias judiciales se hace de forma manual, proceso que es costoso y propenso a errores. En este contexto, se aplican técnicas de aprendizaje profundo con intención de automatizar el proceso. Para llevar esto a cabo, se trabaja sobre el corpus de sentencias de la Base de Jurisprudencia Nacional recopilado por Garat y Wonserver en “Towards De-identification of Legal Texts”, en donde las sentencias se encuentran anotadas con etiquetas que indican los participantes involucrados. Con el fin de poder diferenciarlos de otras personas como ministros, abogados, doctrinos y ubicaciones que llevan el nombre de personas, se agregan nuevas etiquetas para poder mejorar la capacidad de detección de participantes a anonimizar. Partiendo del conjunto, se implementan dos soluciones: un reconocedor de entidades nombradas basado en Transformers y como prueba de concepto, una red neuronal siamesa acompañada de clustering para vincular las entidades encontradas. El reconocedor alcanza una F1 de 95.3 % al identificar personas involucradas en los hechos de las sentencias (las de interés al anonimizar), representando una mejoría frente a soluciones previas del 3,54 %. En el caso de la red se obtiene un V-measure de 93.3 % y un ARI de 88.2 %, inferiores a resultados existentes.

Aprendizaje profundo para la anonimización de textos legales.

Resultados similares