Técnicas de seguimiento ocular y desarrollo de prototipo para accesibilidad.
Supervisor(es): Gómez, Alvaro - Capdehourat, Germán
Resumen:
Dispositivos electrónicos, como laptops y tablets, se utilizan masivamente para trabajar, divertirse y socializar. El conjunto teclado y mouse es la interfaz de entrada más utilizada pero puede presentar dificultades para personas con discapacidad motriz. Se han desarrollado en la industria interfaces alternativas que resolverían esta problemática. Este es el caso de los seguidores oculares que a partir del movimiento de los ojos pueden controlar dispositivos como si fueran un mouse. De todas formas, estos sistemas están compuestos de hardware y software especializado que puede resultar caro para la población general. Los sistemas de seguimiento ocular pueden tener la forma de lentes de armazón, ser un dispositivo que se coloca al lado de la pantalla a utilizar o estar embebidos en el sistema a controlar. En este último caso utilizan los recursos de hardware y software del sistema. Pueden hacer uso de iluminación con espectro cercano al infrarrojo (NIR) que no es percibida por el usuario y además brinda información relativa a la ubicación del sistema en la imagen adquirida. Esto se logra capturando con el sensor de imagen los destellos, denominados glints, producidos por la reflexión de la luz en la córnea. El procesamiento de las imágenes puede consistir únicamente en el uso de la intensidad de los píxeles, conocidos como métodos de apariencia. También se pueden utilizar otros descriptores, aparte de la intensidad, o modelos matemáticos. En este trabajo se analizaron distintas técnicas de estimación de mirada enfocadas en sistemas embebidos de poder computacional modesto. Se trabajó en base a dos métodos : modelo geométrico y método de apariencia. El primero necesita una estimación precisa del centro de las pupilas y de los glints para que con un modelo matemático 3D del ojo se pueda estimar las coordenadas de la mirada en la pantalla. El segundo utiliza recortes de la cara, los ojos y la ubicación en dos dimensiones de la cara en la imagen completa. Estos datos son procesados con una red neuronal convolucional. Se desarrolló un prototipo con un Raspberry Pi 4, una cámara AR1820HS, LEDs infrarrojos y un acelerador de operaciones de tensores (TPU de Coral). Esto permitió elaborar un conjunto de datos que consiste en 540 imágenes de diez sujetos con patrón de calibración fijo y cinco mil imágenes de cinco sujetos con patrón aleatorio. Se realizó además una evaluación en tiempo real con diez usuarios en condiciones de iluminación controlada. Se evaluó el prototipo de forma objetiva con 30 segundos de uso y 180 imágenes adquiridas utilizando un patrón de nueve puntos. Cada sujeto pudo evaluar la usabilidad del prototipo de forma subjetiva contestando preguntas con el movimiento de sus ojos en una aplicación de trivia. Se pudo comprobar que el prototipo permite realizar acciones en la pantalla con los ojos y a 50 cm de distancia de forma satisfactoria en interfaces con botones cuadrados de al menos 40 mm de lado.
Electronic devices, such as laptops and tablets, are massively used for work, entertainment and socializing. The keyboard and mouse set is the most widely used input interface but can present difficulties for people with motor disabilities. Alternative interfaces have been developed in the industry to solve this problem. This is the case of eye trackers that can control devices as if they were a mouse based on eye movements. However, these systems are composed of specialized hardware and software that can be expensive for the general population. Eye-tracking systems can be in the form of frame glasses, be a device that is placed next to the display to be used, or be embedded in the system to be controlled. In the latter case they use the hardware and software resources of the system. They can make use of near-infrared spectrum (NIR) illumination that is not perceived by the user and also provides information regarding the location of the system in the acquired image. This is achieved by capturing with the image sensor the flashes, called glints, produced by the reflection of light on the cornea. Image processing may consist solely of the use of pixel intensity, known as appearance methods. Descriptors other than intensity or mathematical models can also be used. In this work, different gaze estimation techniques focused on embedded systems of modest computational power were analyzed. We worked on the basis of two methods: geometric model and appearance method. The first one requires an accurate estimation of the center of the pupils and glints so that a 3D mathematical model of the eye can be used to estimate the gaze coordinates on the screen. The second uses cutouts of the face, the eyes and the two-dimensional location of the face in the full image. This data is processed with a convolutional neural network. A prototype was developed with a Raspberry Pi 4, an AR1820HS camera, infrared LEDs and a tensor processing unit (Coral TPU). This allowed the development of a dataset consisting of 540 images of ten subjects with fixed calibration pattern and five thousand images of five subjects with random pattern. A real-time evaluation was also performed with ten users under controlled lighting conditions. The prototype was evaluated objectively with 30 seconds of use and 180 images acquired using a nine-point pattern. Each subject was able to evaluate the usability of the prototype subjectively by answering questions with their eye movements in a trivia application. It was possible to verify that the prototype allows performing actions on the screen with the eyes and at a distance of 50 cm in a satisfactory way in interfaces with square buttons of at least 40 mm on each side.
2024 | |
Seguimiento ocular Accesibilidad Sistema embebido Procesamiento de imágenes Redes neuronales Raspberry Pi 4b Coral Edge TPU |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/43890 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | Dispositivos electrónicos, como laptops y tablets, se utilizan masivamente para trabajar, divertirse y socializar. El conjunto teclado y mouse es la interfaz de entrada más utilizada pero puede presentar dificultades para personas con discapacidad motriz. Se han desarrollado en la industria interfaces alternativas que resolverían esta problemática. Este es el caso de los seguidores oculares que a partir del movimiento de los ojos pueden controlar dispositivos como si fueran un mouse. De todas formas, estos sistemas están compuestos de hardware y software especializado que puede resultar caro para la población general. Los sistemas de seguimiento ocular pueden tener la forma de lentes de armazón, ser un dispositivo que se coloca al lado de la pantalla a utilizar o estar embebidos en el sistema a controlar. En este último caso utilizan los recursos de hardware y software del sistema. Pueden hacer uso de iluminación con espectro cercano al infrarrojo (NIR) que no es percibida por el usuario y además brinda información relativa a la ubicación del sistema en la imagen adquirida. Esto se logra capturando con el sensor de imagen los destellos, denominados glints, producidos por la reflexión de la luz en la córnea. El procesamiento de las imágenes puede consistir únicamente en el uso de la intensidad de los píxeles, conocidos como métodos de apariencia. También se pueden utilizar otros descriptores, aparte de la intensidad, o modelos matemáticos. En este trabajo se analizaron distintas técnicas de estimación de mirada enfocadas en sistemas embebidos de poder computacional modesto. Se trabajó en base a dos métodos : modelo geométrico y método de apariencia. El primero necesita una estimación precisa del centro de las pupilas y de los glints para que con un modelo matemático 3D del ojo se pueda estimar las coordenadas de la mirada en la pantalla. El segundo utiliza recortes de la cara, los ojos y la ubicación en dos dimensiones de la cara en la imagen completa. Estos datos son procesados con una red neuronal convolucional. Se desarrolló un prototipo con un Raspberry Pi 4, una cámara AR1820HS, LEDs infrarrojos y un acelerador de operaciones de tensores (TPU de Coral). Esto permitió elaborar un conjunto de datos que consiste en 540 imágenes de diez sujetos con patrón de calibración fijo y cinco mil imágenes de cinco sujetos con patrón aleatorio. Se realizó además una evaluación en tiempo real con diez usuarios en condiciones de iluminación controlada. Se evaluó el prototipo de forma objetiva con 30 segundos de uso y 180 imágenes adquiridas utilizando un patrón de nueve puntos. Cada sujeto pudo evaluar la usabilidad del prototipo de forma subjetiva contestando preguntas con el movimiento de sus ojos en una aplicación de trivia. Se pudo comprobar que el prototipo permite realizar acciones en la pantalla con los ojos y a 50 cm de distancia de forma satisfactoria en interfaces con botones cuadrados de al menos 40 mm de lado. |
---|