Model selection techniques & Sparse Markov Chains

Fraiman, Nicolás

Supervisor(es): Perera, Gonzalo

Resumen:

Este trabajo trata sobre problemas de selección de modelo. El capítulo 0 plantea un estudio general de estos problemas estadísticos. Dados un proceso estocástico y una familia de clases de modelos, con cada clase determinada por un parámetro de estructura y cada modelo dentro de una clase descrito por un vector de parámetros en un espacio cuya dimensión depende de la estructura. Supongamos que dada una realización del proceso podemos estimar el vector de parámetros si la estructura es conocida. La tarea es estimar esta última. Trabajamos usando el concepto de criterio de información, el parámetro de estructura es estimado mediante minimizar un valor asignado a cada clase de modelos. Los criterios más utilizados son el Criterio de Información Bayesiano (BIC) y el principio del mínimo largo de descripción (MDL). El BIC consiste de dos términos: menos el logaritmo de la máxima verosimilitud, esto mide la bondad de ajuste; y la mitad del número de parámetros libres por el logaritmo del tamaño muestral, esto penaliza modelos muy complejos. En el capítulo 2, incluimos algunos resultados recientes en estimación de cadenas de Markov de alcance variable (VLMC), los cuales nos ayudarán a entender más en profundidad el problema planteado. Basados en Csiszar y Talata (2006) extendemos el concepto de árbol de contextos para procesos ergódicos arbitrarios y demostramos que los principios BIC y MDL dan estimadores fuertemente consistentes del árbol de contextos. En el capítulo 3 presentamos una nueva e ingeniosa representación de los modelos Markovianos: los modelos de árbol de contexto disperso (stms), una generalización de las cadenas de alcance variable, donde permitimos juntar conjuntos más generales de estados con distribuciones similares, y preservamos la útil estructura combinatoria de los árboles de contextos. El tema principal del trabajo es estudiar un método para estimar la estructura en esta clase de modelos parsimoniosos. Mostraremos resultados de consistencia para estimadores basados en el principio MDL, el objetivo es encontrar el menor árbol que determina las probabilidades de transición. Finalmente, en el capítulo 4 describimos brevemente algunas aplicaciones en Biología y Teoría de la Información. Ilustramos cómo estas técnicas pueden ser utilizadas para clasificar familias de proteínas. Además mostramos como se pueden utilizar para comprimir imágenes bitonales, dando lugar a un método de compresión sin pérdida que mejora la performance de los métodos basados en árboles de contexto, y de varios algoritmos populares de compresión.


Detalles Bibliográficos
2008
MODELOS DE ÁRBOLES DISPERSOS
CONSISTENCIA
ÁRBOL DE CONTEXTOS
MÍNIMO LARGO DE DESCRIPCIÓN
CADENAS DE ALCANCE VARIABLE
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/5454
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC BY-NC-ND 4.0)
Resumen:
Sumario:Este trabajo trata sobre problemas de selección de modelo. El capítulo 0 plantea un estudio general de estos problemas estadísticos. Dados un proceso estocástico y una familia de clases de modelos, con cada clase determinada por un parámetro de estructura y cada modelo dentro de una clase descrito por un vector de parámetros en un espacio cuya dimensión depende de la estructura. Supongamos que dada una realización del proceso podemos estimar el vector de parámetros si la estructura es conocida. La tarea es estimar esta última. Trabajamos usando el concepto de criterio de información, el parámetro de estructura es estimado mediante minimizar un valor asignado a cada clase de modelos. Los criterios más utilizados son el Criterio de Información Bayesiano (BIC) y el principio del mínimo largo de descripción (MDL). El BIC consiste de dos términos: menos el logaritmo de la máxima verosimilitud, esto mide la bondad de ajuste; y la mitad del número de parámetros libres por el logaritmo del tamaño muestral, esto penaliza modelos muy complejos. En el capítulo 2, incluimos algunos resultados recientes en estimación de cadenas de Markov de alcance variable (VLMC), los cuales nos ayudarán a entender más en profundidad el problema planteado. Basados en Csiszar y Talata (2006) extendemos el concepto de árbol de contextos para procesos ergódicos arbitrarios y demostramos que los principios BIC y MDL dan estimadores fuertemente consistentes del árbol de contextos. En el capítulo 3 presentamos una nueva e ingeniosa representación de los modelos Markovianos: los modelos de árbol de contexto disperso (stms), una generalización de las cadenas de alcance variable, donde permitimos juntar conjuntos más generales de estados con distribuciones similares, y preservamos la útil estructura combinatoria de los árboles de contextos. El tema principal del trabajo es estudiar un método para estimar la estructura en esta clase de modelos parsimoniosos. Mostraremos resultados de consistencia para estimadores basados en el principio MDL, el objetivo es encontrar el menor árbol que determina las probabilidades de transición. Finalmente, en el capítulo 4 describimos brevemente algunas aplicaciones en Biología y Teoría de la Información. Ilustramos cómo estas técnicas pueden ser utilizadas para clasificar familias de proteínas. Además mostramos como se pueden utilizar para comprimir imágenes bitonales, dando lugar a un método de compresión sin pérdida que mejora la performance de los métodos basados en árboles de contexto, y de varios algoritmos populares de compresión.