Reconocimiento de entidades con nombre

García, Claudia - González, Yamandú

Supervisor(es): Garat Baridon, Diego

Resumen:

Una entidad con nombre es una expresión lingüística que denota a una persona (PER), un lugar (LOC), una organización (ORG), etc. Por ejemplo:[PER Wolff] , actualmente periodista en [LOC Argentina], jugó con [PER Del Bosque] a finales de los años setenta en el [ORG Real Madrid]. Identificar entidades con nombre en textos ha demostrado ser un componente importante de tareas como la extracción de información, corrección ortográfica, etc. Dentro de las opciones posibles para realizar esta tarea, el uso de técnicas de aprendizaje permite obtener sistemas más flexibles a cambios de contexto (por ejemplo, cambios en el idioma). En este proyecto se hace un estudio de diversas técnicas de aprendizaje automático para la identificación y clasificación de entidades con nombre, para luego implementar algunas de estas técnicas en una herramienta. Para esto se estudian soluciones propuestas en las conferencias CoNLL ("Conference on Computational Natural Language Learning"). Estas conferencias constituyen un espacio en el que se discuten y presentan trabajos de investigación en el área de la lingüística computacional, utilizando técnicas de aprendizaje automático. Se demuestra que la combinación de varios clasificadores simples, integrando diversas técnicas, provee mejores resultados que un individual, lográndose resultados satisfactorios para el clasificador implementado. Estos resultados son comparados con las soluciones propuestas en las CoNLL, superando alguna de estas. Además, se comparan los resultados con dos sistemas basados en reglas donde se obtienen resultados similares en el reconocimiento. Finalmente, como una forma de ver como se comporta el clasificador implementado en un corpus distinto al provisto en las CoNLL, se clasifican los artículos de las páginas del sitio web de la ONG Choike (www.choike.org), para el cuál se alcanzan buenos resultados.


Detalles Bibliográficos
2005
RECONOCIMIENTO DE ENTIDADES CON NOMBRE
NER
CLASIFICACION DE ENTIDADES CON NOMBRE
NEC
BOOSTING
K-NN
ARBOLES DE DECISION
METODO DE VOTACION
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/3085
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC BY-NC-ND 4.0)
Resumen:
Sumario:Una entidad con nombre es una expresión lingüística que denota a una persona (PER), un lugar (LOC), una organización (ORG), etc. Por ejemplo:[PER Wolff] , actualmente periodista en [LOC Argentina], jugó con [PER Del Bosque] a finales de los años setenta en el [ORG Real Madrid]. Identificar entidades con nombre en textos ha demostrado ser un componente importante de tareas como la extracción de información, corrección ortográfica, etc. Dentro de las opciones posibles para realizar esta tarea, el uso de técnicas de aprendizaje permite obtener sistemas más flexibles a cambios de contexto (por ejemplo, cambios en el idioma). En este proyecto se hace un estudio de diversas técnicas de aprendizaje automático para la identificación y clasificación de entidades con nombre, para luego implementar algunas de estas técnicas en una herramienta. Para esto se estudian soluciones propuestas en las conferencias CoNLL ("Conference on Computational Natural Language Learning"). Estas conferencias constituyen un espacio en el que se discuten y presentan trabajos de investigación en el área de la lingüística computacional, utilizando técnicas de aprendizaje automático. Se demuestra que la combinación de varios clasificadores simples, integrando diversas técnicas, provee mejores resultados que un individual, lográndose resultados satisfactorios para el clasificador implementado. Estos resultados son comparados con las soluciones propuestas en las CoNLL, superando alguna de estas. Además, se comparan los resultados con dos sistemas basados en reglas donde se obtienen resultados similares en el reconocimiento. Finalmente, como una forma de ver como se comporta el clasificador implementado en un corpus distinto al provisto en las CoNLL, se clasifican los artículos de las páginas del sitio web de la ONG Choike (www.choike.org), para el cuál se alcanzan buenos resultados.