Aprendizaje profundo para la anonimización de textos legales.
Supervisor(es): Garat, Diego
Resumen:
Las sentencias judiciales contienen datos sensibles sobre los actores involucrados que, dado su carácter público, deben ser anonimizadas para proteger la identidad de las personas. Hoy en día la anonimización de sentencias judiciales se hace de forma manual, proceso que es costoso y propenso a errores. En este contexto, se aplican técnicas de aprendizaje profundo con intención de automatizar el proceso. Para llevar esto a cabo, se trabaja sobre el corpus de sentencias de la Base de Jurisprudencia Nacional recopilado por Garat y Wonserver en “Towards De-identification of Legal Texts”, en donde las sentencias se encuentran anotadas con etiquetas que indican los participantes involucrados. Con el fin de poder diferenciarlos de otras personas como ministros, abogados, doctrinos y ubicaciones que llevan el nombre de personas, se agregan nuevas etiquetas para poder mejorar la capacidad de detección de participantes a anonimizar. Partiendo del conjunto, se implementan dos soluciones: un reconocedor de entidades nombradas basado en Transformers y como prueba de concepto, una red neuronal siamesa acompañada de clustering para vincular las entidades encontradas. El reconocedor alcanza una F1 de 95.3 % al identificar personas involucradas en los hechos de las sentencias (las de interés al anonimizar), representando una mejoría frente a soluciones previas del 3,54 %. En el caso de la red se obtiene un V-measure de 93.3 % y un ARI de 88.2 %, inferiores a resultados existentes.
2023 | |
Anonimización Sentencias Judiciales Reconocimiento de entidades Vinculación de entidades Resolución de coreferencias Transformers Redes siamesas Clusterización |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/41686 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | Las sentencias judiciales contienen datos sensibles sobre los actores involucrados que, dado su carácter público, deben ser anonimizadas para proteger la identidad de las personas. Hoy en día la anonimización de sentencias judiciales se hace de forma manual, proceso que es costoso y propenso a errores. En este contexto, se aplican técnicas de aprendizaje profundo con intención de automatizar el proceso. Para llevar esto a cabo, se trabaja sobre el corpus de sentencias de la Base de Jurisprudencia Nacional recopilado por Garat y Wonserver en “Towards De-identification of Legal Texts”, en donde las sentencias se encuentran anotadas con etiquetas que indican los participantes involucrados. Con el fin de poder diferenciarlos de otras personas como ministros, abogados, doctrinos y ubicaciones que llevan el nombre de personas, se agregan nuevas etiquetas para poder mejorar la capacidad de detección de participantes a anonimizar. Partiendo del conjunto, se implementan dos soluciones: un reconocedor de entidades nombradas basado en Transformers y como prueba de concepto, una red neuronal siamesa acompañada de clustering para vincular las entidades encontradas. El reconocedor alcanza una F1 de 95.3 % al identificar personas involucradas en los hechos de las sentencias (las de interés al anonimizar), representando una mejoría frente a soluciones previas del 3,54 %. En el caso de la red se obtiene un V-measure de 93.3 % y un ARI de 88.2 %, inferiores a resultados existentes. |
---|