Algoritmos eficientes para la construcción de conjuntos óptimos de contextos bi–direccionales

Fernández Barreiro, Fernando Arsenio

Supervisor(es): Weinberger, Marcelo - Pardo, Alberto

Resumen:

La técnica de modelados por contextos usada en problemas de decisión secuencial, como compresión de datos y otros, descompone una secuencia dada entre un conjunto de subsecuencias que son tratadas independientemente. La descomposición se basa en la ocurrencia de ciertas cadenas de símbolos que son elementos de un conjunto finito de contextos. Cada contexto tiene asociado un peso dado por una pérdida numérica generada al procesar la subsecuencia. Por tal motivo es necesario encontrar un conjunto de contextos óptimo (que minimice la pérdida total). En esta tesis los contextos están formados por pares de cadenas y se denominan contextos bi–direccionales. La contribución de este trabajo es presentar estructuras de datos y algoritmos computacionalmente eficientes para encontrar un conjunto óptimo de contextos cuando la longitud de los contextos no está acotada. Se demuestra que el conjunto de todos estos contextos bi–direccionales se puede partir en clases de equivalencia y alcanza con procesar un elemento representativo de cada clase. La estructura presentada es una generalización de árboles de sufijos compactos. Es un grafo enraizado, dirigido, acíclico, donde cada vértice está etiquetado por el elemento representativo de una clase. Recíprocamente a cada clase le corresponde un vértice de este grafo. Las aristas dirigidas (al igual que en los árboles compactos de sufijos) están etiquetados por cadenas de símbolos, con las que se extiende el contexto representado por el vértice origen. Algunos vértices no tienen aristas salientes. Cada uno de los otros vértices tiene dos conjuntos de hijos (cada uno de los cuales extiende una de las direcciones de los contextos). También se describe un algoritmo que reduce la complejidad de orden cúbico a orden cuadrático (en el largo de la cadena). Para ello se hace uso de árboles de sufijos y el cálculo del ancestro común más profundo de varios nodos de un árbol.


Detalles Bibliográficos
2018
Modelado por contexto
Contextos bi-direccionales
Árboles de contexto
Compresión
Predicción
Eliminación de ruido
Árbol de sufijos
Ancestro común más profundo
Grafos
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/36504
Acceso abierto
Licencia Creative Commons Atribución (CC - By 4.0)