Citaciones en las sentencias de la base de jurisprudencia nacional
Supervisor(es): Wonsever, Dina
Resumen:
El proyecto presentado en este documento trata sobre la construcción de un sistema para el procesamiento de sentencias judiciales de la Base de Jurisprudencia Nacional (BJN), las cuales corresponden a sentencias de segunda instancia, es decir, apelaciones de sentencias anteriores. El principal factor de motivación para este trabajo fue poder generar herramientas para el mayor aprovechamiento de los datos. El proceso se dividió en tres etapas: extracción de referencias a distintos objetos legales presentes en los textos de las Sentencias, post-procesamiento y carga de la información extraída a una base de datos orientada a grafos y por ultimo el etiquetado semántico de las referencias encontradas. Al realizar la primera parte se generaron recursos muy útiles para poder realizar otros estudios sobre distintos aspectos del funcionamiento del área legal. El resultado de la segunda etapa fue un grafo de referencias, el cual ofrece la capacidad de mejorar la interpretación de la información almacenada en la BJN, además de facilitar la manipulación de los datos y ofrecer la posibilidad de realizar análisis más profundos sobre la información de las sentencias. Para la primera etapa se comenzó realizando un etiquetado manual de las distintas referencias presentes en los textos de la BJN, para luego abordar la tarea de extracción de referencias mediante distintos enfoques. El primer paso tomado consistió en la creación de reglas manuales mediante expresiones regulares para la extracción del texto completo de una referencia. Además se utilizaron otras herramientas como NeuroNER, Campos Aleatorios Condicionales (CRF) y SpaCy. Para esta etapa, mediante la utilización de esta última herramienta se obtuvo un 87.63% de medida micro-F1. Además, dado que uno de los objetos de estudio son los Doctrinos del área legal, y debido a que estos se corresponden a personas, se utilizaron otros métodos para la extracción de referencias a los mismos con el objetivo de generar una lista primaria de nombres sobre los cuales se pueda trabajar en un futuro. Las herramientas utilizadas para esta tarea fueron el sistema "Identificación de opiniones de diferentes fuentes en textos en Español" y SPIED, un sistema de extracción de información desarrollado por el equipo de PLN de Stanford. Para la segunda etapa se trabajó con el motor de bases de datos Neo4j, el cual brinda soporte para esquemas de información orientados a grafos. Para poder crear el grafo de referencias fue necesario realizar un post-procesamiento de la información extraída en la primera etapa. Para esto se desarrolló un módulo que toma como entrada al texto de una referencia y extrae mediante diferentes reglas las propiedades más importantes de la misma. Luego, con estas propiedades se construye dinámicamente una consulta que al ejecutarse crea los nodos y aristas necesarios. Al evaluar este módulo individualmente se obtuvo un 94.79% de medida micro-F1. También se desarrolló una estrategia de evaluación del sistema completo, teniendo en cuenta los componentes desarrollados, con la cual se obtuvo un 89.05% de medida micro-F1. Finalmente, la tercera etapa consiste en un estudio sobre el etiquetado semántico de las referencias. Esto significa poder, de manera automática, asignarle un sentido semántico a cada referencia. Se estudiaron los aspectos correspondientes al posible desarrollo de esta tarea, preparando el camino para futuros trabajos en esta área. En esta etapa se pudieron reconocer diferentes problemas relacionados a la identifican de la razón por la cual se realiza una referencia, y a la identificación de predicados. Estos problemas requieren de más tiempo y conocimiento técnico del área legal para su abordaje. Se comentan brevemente los mismos y posibles pasos para completar la tarea.
2020 | |
SENTENCIAS JUDICIALES PROCESAMIENTO DE LENGUAJE NATURAL TEORIA DE GRAFOS ANÁLISIS SEMÁNTICO |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/24815 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | El proyecto presentado en este documento trata sobre la construcción de un sistema para el procesamiento de sentencias judiciales de la Base de Jurisprudencia Nacional (BJN), las cuales corresponden a sentencias de segunda instancia, es decir, apelaciones de sentencias anteriores. El principal factor de motivación para este trabajo fue poder generar herramientas para el mayor aprovechamiento de los datos. El proceso se dividió en tres etapas: extracción de referencias a distintos objetos legales presentes en los textos de las Sentencias, post-procesamiento y carga de la información extraída a una base de datos orientada a grafos y por ultimo el etiquetado semántico de las referencias encontradas. Al realizar la primera parte se generaron recursos muy útiles para poder realizar otros estudios sobre distintos aspectos del funcionamiento del área legal. El resultado de la segunda etapa fue un grafo de referencias, el cual ofrece la capacidad de mejorar la interpretación de la información almacenada en la BJN, además de facilitar la manipulación de los datos y ofrecer la posibilidad de realizar análisis más profundos sobre la información de las sentencias. Para la primera etapa se comenzó realizando un etiquetado manual de las distintas referencias presentes en los textos de la BJN, para luego abordar la tarea de extracción de referencias mediante distintos enfoques. El primer paso tomado consistió en la creación de reglas manuales mediante expresiones regulares para la extracción del texto completo de una referencia. Además se utilizaron otras herramientas como NeuroNER, Campos Aleatorios Condicionales (CRF) y SpaCy. Para esta etapa, mediante la utilización de esta última herramienta se obtuvo un 87.63% de medida micro-F1. Además, dado que uno de los objetos de estudio son los Doctrinos del área legal, y debido a que estos se corresponden a personas, se utilizaron otros métodos para la extracción de referencias a los mismos con el objetivo de generar una lista primaria de nombres sobre los cuales se pueda trabajar en un futuro. Las herramientas utilizadas para esta tarea fueron el sistema "Identificación de opiniones de diferentes fuentes en textos en Español" y SPIED, un sistema de extracción de información desarrollado por el equipo de PLN de Stanford. Para la segunda etapa se trabajó con el motor de bases de datos Neo4j, el cual brinda soporte para esquemas de información orientados a grafos. Para poder crear el grafo de referencias fue necesario realizar un post-procesamiento de la información extraída en la primera etapa. Para esto se desarrolló un módulo que toma como entrada al texto de una referencia y extrae mediante diferentes reglas las propiedades más importantes de la misma. Luego, con estas propiedades se construye dinámicamente una consulta que al ejecutarse crea los nodos y aristas necesarios. Al evaluar este módulo individualmente se obtuvo un 94.79% de medida micro-F1. También se desarrolló una estrategia de evaluación del sistema completo, teniendo en cuenta los componentes desarrollados, con la cual se obtuvo un 89.05% de medida micro-F1. Finalmente, la tercera etapa consiste en un estudio sobre el etiquetado semántico de las referencias. Esto significa poder, de manera automática, asignarle un sentido semántico a cada referencia. Se estudiaron los aspectos correspondientes al posible desarrollo de esta tarea, preparando el camino para futuros trabajos en esta área. En esta etapa se pudieron reconocer diferentes problemas relacionados a la identifican de la razón por la cual se realiza una referencia, y a la identificación de predicados. Estos problemas requieren de más tiempo y conocimiento técnico del área legal para su abordaje. Se comentan brevemente los mismos y posibles pasos para completar la tarea. |
---|