Reconocimiento automático de configuraciones manuales propias de las lenguas de señas

Stassi Danielli, Ariel Esteban

Supervisor(es): Delbracio, Mauricio - Randall, Gregory

Resumen:

En este proyecto se presenta el estudio de un sistema de reconocimiento de configuraciones manuales propias de distintas lenguas de señas y la evaluación del mismo bajo diferentes condiciones. En el marco de este proyecto se estudiaron las características fundamentales de las lenguas de señas, esto es, aspectos vinculados a la semántica de una seña como así también a la gramática de este tipo de lenguas. Ello permitió tomar noción de la complejidad propia de este medio de comunicación, y por tanto, de la complejidad ligada a su reconocimiento automático. La revisión de la bibliografía asociada al Reconocimiento Automático de la Lengua de Señas (RALS) permitió conocer los grandes problemas en este campo, a saber (1) reconocimiento de deletreo manual, (2) reconocimiento de señas aisladas y (3) reconocimiento de discurso continuo, a los cuales se les puede agregar el requerimiento de que el sistema sea independiente del señante. En términos generales, se observó que el RALS es frecuentemente abordado mediante una cadena de procesamiento, compuesta por las siguientes etapas: sensado, preprocesamiento, extracción de características y clasificación. Durante este trabajo se estudiaron distintas variantes para la implementación de cada una de estas etapas, finalizando con la presentación de soluciones basadas en aprendizaje profundo. Dentro de los sistemas más ampliamente utilizados para el reconocimiento de patrones en imágenes aisladas se encuentran las redes neuronales convolucionales (CNN), las cuales se constituyen como redes neuronales de múltiples capas prealimentadas. La revisión de las bases de datos y las métricas de desempeño permitió tomar noción de los criterios y procedimientos seguidos para la adquisición de un corpus con una aplicación particular. Durante esta búsqueda no fue posible encontrar una base de datos de Lengua de Señas Uruguaya (LSU) para el reconocimiento automático. En virtud de ello, durante este trabajo se realizaron dos tareas. Por un lado, se conformó TReLSU-HS, una base de datos para el reconocimiento de configuraciones manuales propias de la LSU a partir de imágenes estáticas. Por otro lado, se sentaron las bases para la adquisición de una base de datos para el reconocimiento de LSU a nivel de seña, tomando un subconjunto de Léxico TReLSU como corpus de partida. Durante la etapa de implementación en el marco de esta tesis de maestría se trabajó sobre la reproducción de un sistema de RALS para el reconocimiento de configuraciones manuales a partir de imágenes estáticas. En particular, el sistema base utilizado fue Deep Hand, introducido en el artículo "Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data is Continuous and Weakly Labelled" de Koler y cols., en el cual se implementa y entrena una CNN para el reconocimiento de configuraciones manuales propias de la lengua de señas alemana. La metodología seguida para la evaluación de Deep Hand implicó la selección y, eventualmente, la conformación de distintas bases de datos representativas del problema, preprocesadas de acuerdo a los requerimientos de Deep Hand. En particular, sde trabajó sobre 4 bases de datos: una base de datos de prueba del sistema Deep Hand; dos bases de datos de deletreo manual, una de lengua de señas alemana y otra de lengua de señas americana; y TreLSU-HS, la cual se introdujo anteriormente. Sobre las bases de datos listadas, se evaluó el desempeño del sistema Deep Hand, brindando tasas de reconocimiento del orden del 30% o inferiores. Este hecho motivó la prueba de distintas variantes de aprendizaje por transferencia, en las cuales se llevó a cabo el entrenamiento de un clasificador SVM y por K vecinos más cercanos, obteniendo un desempeño del orden del 66% bajo un esquema independiente del señante, sobre una base de datos de lengua de señas alemana compuesta por 35 clases. Por su parte, las pruebas realizadas sobre TReLSU-HS mostraron un comportamiento fuertemente dependiente de la cantidad de muestras por clase, mostrando la importancia de contar con una base de datos balanceada para la implementación de un sistema para RALS uruguayo de utilidad práctica.


Detalles Bibliográficos
2019
LENGUA DE SEÑAS
RECONOCIMIENTO AUTOMATICO DE LA LENGUA DE SEÑAS
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/22463
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:En este proyecto se presenta el estudio de un sistema de reconocimiento de configuraciones manuales propias de distintas lenguas de señas y la evaluación del mismo bajo diferentes condiciones. En el marco de este proyecto se estudiaron las características fundamentales de las lenguas de señas, esto es, aspectos vinculados a la semántica de una seña como así también a la gramática de este tipo de lenguas. Ello permitió tomar noción de la complejidad propia de este medio de comunicación, y por tanto, de la complejidad ligada a su reconocimiento automático. La revisión de la bibliografía asociada al Reconocimiento Automático de la Lengua de Señas (RALS) permitió conocer los grandes problemas en este campo, a saber (1) reconocimiento de deletreo manual, (2) reconocimiento de señas aisladas y (3) reconocimiento de discurso continuo, a los cuales se les puede agregar el requerimiento de que el sistema sea independiente del señante. En términos generales, se observó que el RALS es frecuentemente abordado mediante una cadena de procesamiento, compuesta por las siguientes etapas: sensado, preprocesamiento, extracción de características y clasificación. Durante este trabajo se estudiaron distintas variantes para la implementación de cada una de estas etapas, finalizando con la presentación de soluciones basadas en aprendizaje profundo. Dentro de los sistemas más ampliamente utilizados para el reconocimiento de patrones en imágenes aisladas se encuentran las redes neuronales convolucionales (CNN), las cuales se constituyen como redes neuronales de múltiples capas prealimentadas. La revisión de las bases de datos y las métricas de desempeño permitió tomar noción de los criterios y procedimientos seguidos para la adquisición de un corpus con una aplicación particular. Durante esta búsqueda no fue posible encontrar una base de datos de Lengua de Señas Uruguaya (LSU) para el reconocimiento automático. En virtud de ello, durante este trabajo se realizaron dos tareas. Por un lado, se conformó TReLSU-HS, una base de datos para el reconocimiento de configuraciones manuales propias de la LSU a partir de imágenes estáticas. Por otro lado, se sentaron las bases para la adquisición de una base de datos para el reconocimiento de LSU a nivel de seña, tomando un subconjunto de Léxico TReLSU como corpus de partida. Durante la etapa de implementación en el marco de esta tesis de maestría se trabajó sobre la reproducción de un sistema de RALS para el reconocimiento de configuraciones manuales a partir de imágenes estáticas. En particular, el sistema base utilizado fue Deep Hand, introducido en el artículo "Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data is Continuous and Weakly Labelled" de Koler y cols., en el cual se implementa y entrena una CNN para el reconocimiento de configuraciones manuales propias de la lengua de señas alemana. La metodología seguida para la evaluación de Deep Hand implicó la selección y, eventualmente, la conformación de distintas bases de datos representativas del problema, preprocesadas de acuerdo a los requerimientos de Deep Hand. En particular, sde trabajó sobre 4 bases de datos: una base de datos de prueba del sistema Deep Hand; dos bases de datos de deletreo manual, una de lengua de señas alemana y otra de lengua de señas americana; y TreLSU-HS, la cual se introdujo anteriormente. Sobre las bases de datos listadas, se evaluó el desempeño del sistema Deep Hand, brindando tasas de reconocimiento del orden del 30% o inferiores. Este hecho motivó la prueba de distintas variantes de aprendizaje por transferencia, en las cuales se llevó a cabo el entrenamiento de un clasificador SVM y por K vecinos más cercanos, obteniendo un desempeño del orden del 66% bajo un esquema independiente del señante, sobre una base de datos de lengua de señas alemana compuesta por 35 clases. Por su parte, las pruebas realizadas sobre TReLSU-HS mostraron un comportamiento fuertemente dependiente de la cantidad de muestras por clase, mostrando la importancia de contar con una base de datos balanceada para la implementación de un sistema para RALS uruguayo de utilidad práctica.